La modélisation est ancienne à l’Insee. Portant plus sur le domaine économique à l’époque des exercices de planification des trente glorieuses, elle s’est ensuite intéressée aux domaines plus sociaux, notamment les questions de prestations sociales et de distribution des revenus. Aujourd’hui, l’arrivée des données massives élargit encore les opportunités.

Un passé de modélisation macroéconomique pour la prévision de court terme et de moyen-long terme

La conception d’outils de prévision économique repose sur les questions qui se posent à des décideurs publics et à la société dans son ensemble d’une part et sur les données et les technologies accessibles. Les années 1970 verront apparaître à l’Insee deux modèles, l’un de court terme et trimestriel, destiné à éclairer la conjoncture, le modèle METRIC et l’autre DMS, de moyen-long terme, annuel, ayant comme principal débouché le Commissariat général du Plan en charge de définir les grandes orientations du pays et de les faire adopter dans des lois de Plan.

Les deux modèles vont pouvoir s’asseoir sur les données de comptabilité nationale disponibles depuis 1959 en données annuelles et 1970 en données trimestrielles. Ils pourront également être simulés sur un logiciel canadien avant de voir se développer des logiciels français. Ces modèles néo-keynésiens s’appuient sur une simulation des équilibres de la comptabilité nationale et décrivent ainsi une dynamique keynésienne, mais avec une description de l’offre liée à l’investissement productif et du partage entre commerce extérieur et production nationale qui introduisent de puissantes rétroactions de l’offre. A cette époque, les variables financières sont sous le contrôle de l’État et l’essentiel porte sur la sphère de production de biens et services avec ses conséquences sur l’emploi. Au-delà des équilibres comptables, les comportements des agents sont appréciés à l’aide de relations économétriques.

METRIC perdra de son influence dans l’élaboration des Notes de conjoncture car la structure autorégressive de ses relations ne permet pas de rendre compte assez rapidement des crises économiques. Les enquêtes de conjoncture seront plus valorisées dans le diagnostic.

Le modèle dynamique multi-sectoriel DMS avec ses onze branches comporte environ 1900 équations dont 250 équations de comportement et 400 variables exogènes pour calculer des scénarios à pas annuel pour le Plan et faire des variantes pour illustrer des mesures de politique économique. Il bénéficiera d’un « petit frère » qui déclinera les scénarios sectoriels en désagrégeant les 11 branches en une quarantaine. A l’opposé, dans les années 90, le choix sera de réduire la dimension sectorielle avec le modèle AMADEUS, héritier de DMS.

Une modélisation macroéconomique maintenant plus resserrée avec un accent sur les finances publiques, l’environnement et l’international

Pour faire évoluer ces modèles, les ajuster aux nouvelles demandes et réduire leur coût de fonctionnement, l’Insee et la direction du Trésor décident dans les années 2000 de faire évoluer les modèles historiques en investissant dans MESANGE, (Modèle Économétrique de Simulation et d’ANalyse Générale de l’Économie).

MESANGE est un modèle macroéconométrique trimestriel de l’économie française à trois secteurs développé conjointement par la Direction générale du trésor et de la politique économique (DGTPE) et l’Institut national de la statistique et des études économiques (Insee). De taille moyenne, il comporte environ 500 équations, dont une quarantaine retrace des « comportements » estimés économétriquement. Il se caractérise par une dynamique keynésienne à court terme et un équilibre de long terme déterminé par des facteurs d’offre. De manière usuelle dans ce type de modèle, l’économie française y est modélisée sous la forme d’une petite économie ouverte au sens où l’environnement international est supposé exogène. Les taux d’intérêt, les taux de change de la monnaie nationale par rapport aux monnaies étrangères, la demande publique, la population active et l’évolution du progrès technique constituent les principales autres variables exogènes du modèle. MESANGE est mobilisé d’une part pour simuler et évaluer des mesures de politique économique (utilisation dite en «variante»), d’autre part pour réaliser des exercices conjoncturels, notamment des prévisions et des analyses de contributions (utilisation dite « conjoncturelle »).

Un module « énergie » a été créé afin de modéliser les comportements de consommation en énergie des ménages et des entreprises, les prix de l’énergie ainsi que les taxes portant sur ce type de produits. L’ajout de ce module au modèle de base permet notamment d’évaluer l’impact sur l’activité d’une modification de la fiscalité sur l’énergie.

Un bloc fiscal très largement inspiré d’une maquette de variantes de comptes publics développée et utilisée par la DGTPE rend compte des mécanismes d’indexation des recettes et dépenses publiques et renseigne les élasticités de court terme des principaux impôts à des variables macroéconomiques standard (excédent brut d’exploitation, masse salariale, PIB, inflation…). Ces élasticités ont permis notamment de calibrer les équations relatives à l’impôt sur les sociétés.

Les variables de l’environnement international y sont exogènes, mais elles peuvent être déterminées à l’aide du modèle NIGEM, développé par le National Institute of Economic and Social Research (NIESR) de Londres et utilisé par une cinquantaine d’organismes abonnés de divers pays dont l’Insee et la DG Trésor.

En 2016, l’institut a mis au point un nouveau modèle de l’économie de la zone Euro baptisé Mélèze (pour Modèle Économique Linéarisé d’Équilibre en Zone Euro).  Il a vocation à comprendre comment l’appartenance à une union monétaire peut affecter la mise en œuvre et les conséquences sur le plan macroéconomique de diverses politiques économiques et fiscales.

Modéliser la protection sociale : le modèle DESTINIE

Le modèle DESTINIE est un modèle de microsimulation dynamique développé à l’Insee, principalement pour réaliser des projections de l’évolution du système de retraites à long terme. Il est composé de deux modules. Le premier module génère les biographies familiales et professionnelles d’un échantillon représentatif de la population résidant en France. L’échantillon initial est issu de l’enquête Patrimoine 2009-2010. Il comporte 34 922 personnes (15 006 personnes de référence, 9 326 conjoints, 10 199 enfants, 391 beaux-enfants) formant 15 006 ménages. Le module complète ensuite les trajectoires de vie et les carrières professionnelles des tous les individus résidents en France chaque année jusqu’à l’horizon de la projection.

Le second module simule les départs en retraite suivant une législation donnée et une hypothèse de comportements des assurés. Ceux-ci peuvent ainsi liquider leur pension de retraite lorsqu’ils atteignent le taux plein, une utilité instantanée cible ou lorsque cela maximise leur utilité inter-temporelle. Les hypothèses macroéconomiques retenues reprennent celles d’un des scénarios retenus pour les projections annuelles du Conseil d’Orientation des Retraites (COR). En termes de législation sur les retraites, l’essentiel des dispositions adoptées jusqu’en 2014 sont intégrées.

Dans une étude récente sur le thème de la retraite sans incapacité, on enrichit le modèle en soumettant les individus de l’échantillon à une probabilité de devenir invalide à l’aide d’une fonction de prévalence de l’occurrence d’incapacité tenant compte des caractéristiques de chaque individu. L’espérance de vie à 50 ans en retraite sans incapacité sévère s’élèverait alors à 21,3 ans pour les femmes nées en 1960 et à 18,0 ans pour les hommes nés la même année. Elle représente un peu plus de la moitié de l’espérance de vie totale à 50 ans.

Modéliser la redistribution des revenus : le modèle INES

Le 14 juin 2016, l’Insee et la Drees (direction de la recherche et des études statistiques du Ministère de la santé et des affaires sociales) ont ouvert le code source du modèle INES (acronyme d’Insee-Drees). Créé en 1996, ce modèle simule les prélèvements sociaux et fiscaux directs et les prestations sociales à partir de données représentatives de la population française que fournit l’enquête Revenus fiscaux et sociaux. INES appréhende la diversité et la complexité des situations réelles des Français à partir d’un échantillon de plus de 50 000 ménages représentatifs de la population vivant en France métropolitaine, dans un logement ordinaire (logement non collectif), soit l’équivalent de 130 000 personnes. La microsimulation effectuée dans Ines consiste, dans un premier temps, à vieillir la base de données de manière statique (modification de la structure socio-démographique et évolution de revenus qui ne dépendent pas des barèmes) et, dans un second temps, à simuler sur barème les prestations et prélèvements entrant en jeu dans le niveau de vie du ménage (sans utiliser les informations issues de l’appariement avec les fichiers sociaux et fiscaux).

En plus d’études thématiques sur les questions de redistribution, ce modèle permet de réaliser un « Nowcasting » du taux de pauvreté par la micro-simulation, c’est-à-dire produire plus précocement (à l’automne N+1) un indicateur du taux de pauvreté de l’année N. Appliquée à 2014 et 2015, cette méthode a fourni des estimations proches des données observées publiées l’année suivante. Pour 2016, elle indique une légère baisse du taux de pauvreté (– 0,3 point) et des inégalités mesurées par l’indice de Gini (– 0,002) et par le rapport interdécile (– 0,1). Le taux de pauvreté atteindrait 13,9 % de la population.

Et maintenant le recours aux données massives ?

L’Insee s’est doté de moyens d’études pour étudier l’apport possible de l’utilisation de données massives dans ses exercices de production statistique et de modélisation. Pour maintenir le statut de statistiques officielles et le sérieux des exercices de modélisation dont doit pouvoir se prévaloir un institut national de la statistique, les exigences sur la qualité des données obtenues au titre de données massives sont particulièrement fortes.

La mobilisation de données issues du web ou de la presse en ligne pose des problèmes de circularité, tant en nowcasting qu’en prévision stricto sensu. Un premier facteur de circularité est le fait que les données ou prévisions publiées par les organismes en charge de la conjoncture sont généralement reprises par les articles de presse. Ce risque de prophéties autoréalisatrices est en principe moins marqué dans le cas de l’activité économique réelle que sur des marchés fortement spéculatifs mais il peut néanmoins exister. Ce phénomène ne dégrade pas la performance des modèles de prévision, il tendrait même à l’accroître, mais en renforçant l’instabilité naturelle de l’économie. D’où l’importance d’ancrer les prévisions sur des informations les plus objectives et les plus indépendantes possibles, pour minimiser le risque de cycles auto-réalisateurs sans motivations réelles. À la limite, on ne peut pas non plus exclure la possibilité de manipulation. Si l’usage de certains termes était susceptible d’influencer le niveau de l’indicateur économique, certains acteurs seraient tentés d’accroître la présence de ces termes sur la toile ou dans les médias, à connotation positive ou négative selon le résultat recherché.