{"id":9131,"date":"2026-05-08T07:30:11","date_gmt":"2026-05-08T05:30:11","guid":{"rendered":"https:\/\/variances.eu\/?p=9131"},"modified":"2026-05-08T08:10:57","modified_gmt":"2026-05-08T06:10:57","slug":"les-innovations-en-datascience-a-linsee-apprentissage-statistique-et-nouvelles-sources-de-donnees","status":"publish","type":"post","link":"https:\/\/variances.eu\/?p=9131","title":{"rendered":"Les innovations en datascience \u00e0 l\u2019Insee : apprentissage statistique et nouvelles sources de donn\u00e9es"},"content":{"rendered":"<p>L\u2019essor de la <em>datascience<\/em>, avant m\u00eame l\u2019\u00e9mergence des grands mod\u00e8les de langage, a profond\u00e9ment transform\u00e9 les m\u00e9thodes statistiques. A l\u2019Insee, et plus largement dans le service statistique public, la <em>datascience<\/em> a favoris\u00e9 de multiples innovations irriguant les m\u00e9thodes statistiques. Elle a conduit \u00e0 l\u2019utilisation de m\u00e9thodes d\u2019apprentissage statistique (<em>machine learning<\/em>) et leurs applications prometteuses dans les domaines de la codification, des redressements et de l\u2019imputation. Elle a \u00e9galement favoris\u00e9 la combinaison des sources de donn\u00e9es <em>via<\/em> des appariements, permettant de croiser les informations et d\u2019enrichir les analyses. Elle a permis l\u2019exploration de donn\u00e9es \u00e9mergentes. Dans cet article, on \u00e9voquera ces trois \u00e9volutions majeures\u00a0: apprentissage statistique\u00a0; apport des appariements\u00a0; exploration de donn\u00e9es \u00e9mergentes. Ce ne sont bien s\u00fbr pas les seules innovations men\u00e9es \u00e0 l\u2019Insee, dont un panorama plus large peut \u00eatre trouv\u00e9 dans un billet de blog de l\u2019Insee (J.-L. Tavernier, 2025). L\u2019\u00e9mergence de l\u2019intelligence artificielle g\u00e9n\u00e9rative ouvre \u00e9galement de nouvelles perspectives qui ne sont pas abord\u00e9es ici.<\/p>\n<h3><strong>L\u2019apprentissage statistique\u00a0: des m\u00e9thodes souples pour cat\u00e9goriser<\/strong><\/h3>\n<p>Secteur d\u2019activit\u00e9, profession, commune, poste de d\u00e9penses des m\u00e9nages, \u2026. Les op\u00e9rations de codification sont tr\u00e8s nombreuses pour \u00e9laborer les statistiques publiques, et peuvent parfois \u00eatre complexes en raison de la taille des nomenclatures. Les nouvelles m\u00e9thodes d\u2019apprentissage statistique offrent davantage de souplesse\u00a0que les outils pr\u00e9c\u00e9dents ; elles permettent de s\u2019adapter plus facilement dans le cas o\u00f9 les donn\u00e9es en entr\u00e9e \u00e9voluent et elles am\u00e9liorent l\u2019efficacit\u00e9 de la codification.<\/p>\n<p>Pour donner un exemple, l\u2019Insee doit coder le secteur d\u2019activit\u00e9 des entreprises \u00e0 partir de leurs d\u00e9clarations. Jusqu\u2019en 2022, les d\u00e9clarations de la ou des activit\u00e9s des entreprises \u00e9taient r\u00e9dig\u00e9es par des experts et pr\u00e9sentaient une certaine r\u00e9gularit\u00e9. Avec la mise en place du guichet unique des formalit\u00e9s des entreprises, les chefs d\u2019entreprises d\u00e9crivent d\u00e9sormais leur activit\u00e9 dans un champ de texte libre. Face \u00e0 ces \u00e9volutions, il a \u00e9t\u00e9 d\u00e9cid\u00e9 de travailler avec des mod\u00e8les d\u2019apprentissage statistique. La codification \u00e0 partir des champs de texte libre fournis par les chefs d\u2019entreprise est une t\u00e2che complexe : les descriptions d\u2019activit\u00e9 sont relativement courtes, contiennent donc peu d\u2019information statistique et peuvent inclure des fautes d\u2019orthographe. Pour une telle t\u00e2che, les m\u00e9thodes traditionnelles d\u2019analyse textuelle sont souvent insuffisantes, tandis que les m\u00e9thodes bas\u00e9es sur des r\u00e9seaux de neurones donnent de meilleurs r\u00e9sultats.<\/p>\n<p>Pour cette codification, l\u2019Insee a adopt\u00e9 un mod\u00e8le d\u2019apprentissage supervis\u00e9. Le mod\u00e8le se base sur une vectorisation de chaque libell\u00e9 d\u00e9crivant l\u2019activit\u00e9 de l\u2019entreprise\u00a0; cela consiste \u00e0 associer \u00e0 chaque mot une repr\u00e9sentation sous la forme d\u2019un vecteur (R. Avouac, T. Faria, F. Comte, 2025). Un texte est alors repr\u00e9sent\u00e9 comme une collection de repr\u00e9sentations vectorielles de chacun des mots qui le composent. Plus pr\u00e9cis\u00e9ment, cette repr\u00e9sentation vectorielle est calcul\u00e9e sur les mots, mais aussi sur des n-grammes de mots et de caract\u00e8res, fournissant ainsi plus de contexte et r\u00e9duisant les biais li\u00e9s aux fautes d\u2019orthographe.<\/p>\n<p>Il faut relier cette repr\u00e9sentation vectorielle des libell\u00e9s au secteur d\u2019activit\u00e9 correspondant. Ces mod\u00e8les d\u2019apprentissage statistique n\u00e9cessitent d\u2019importantes donn\u00e9es d\u2019entra\u00eenement. Les donn\u00e9es cod\u00e9es auparavant, dans l\u2019ancien syst\u00e8me d\u00e9claratif, ont fourni des premi\u00e8res sources d\u2019entra\u00eenement ensuite compl\u00e9t\u00e9es par une labellisation manuelle des donn\u00e9es issues du guichet unique des formalit\u00e9s des entreprises.<\/p>\n<p>Une fois entra\u00een\u00e9, le mod\u00e8le peut faire des \u00ab\u00a0pr\u00e9dictions\u00a0\u00bb de secteur d\u2019activit\u00e9. Il calcule un indice de confiance pour chaque pr\u00e9diction. Pour une description textuelle donn\u00e9e, si l\u2019indice de confiance d\u00e9passe un seuil d\u00e9termin\u00e9, la description est automatiquement cod\u00e9e. Sinon, un agent intervient, assist\u00e9 par les cinq suggestions les plus probables du mod\u00e8le.<\/p>\n<p>Les mod\u00e8les doivent \u00eatre surveill\u00e9s en permanence pour \u00e9viter une d\u00e9gradation des performances. Par exemple, le mot \u00ab Uber \u00bb \u00e9tait habituellement associ\u00e9 \u00e0 des codes li\u00e9s aux services de taxis. Cependant, avec l\u2019apparition des services de livraison de repas comme \u00ab Uber Eats \u00bb, cette relation entre le libell\u00e9 et le code associ\u00e9 a chang\u00e9. Une veille statistique est donc cruciale pour ajuster les mod\u00e8les.<\/p>\n<p>Un autre exemple peut \u00eatre donn\u00e9 par la codification des d\u00e9penses des m\u00e9nages dans l\u2019enqu\u00eate Budget des familles. Cette enqu\u00eate ambitieuse cherche \u00e0 mesurer tr\u00e8s pr\u00e9cis\u00e9ment les multiples postes de d\u00e9penses des m\u00e9nages. Pour l\u2019enqu\u00eate qui est actuellement en cours de collecte, les m\u00e9nages ont pour la premi\u00e8re fois le choix entre renseigner leurs d\u00e9penses dans un carnet papier comme auparavant ou t\u00e9l\u00e9charger une application <em>smartphone<\/em> qui prend en compte les photographies des tickets de caisse. Comme, par ailleurs, le calcul de l\u2019inflation mensuelle repose partiellement sur des donn\u00e9es de caisse, des bases de donn\u00e9es reliant intitul\u00e9s de produits et nomenclature de d\u00e9penses existent d\u00e9j\u00e0. En parall\u00e8le, un test de l\u2019enqu\u00eate r\u00e9alis\u00e9 en 2024 a permis de constituer un autre corpus de 16 000 lignes, cod\u00e9es manuellement. Ces diff\u00e9rentes bases seront utilis\u00e9es et permettront, on l\u2019esp\u00e8re, d\u2019obtenir un mod\u00e8le puissant de codification des lignes de d\u00e9penses.<\/p>\n<h3><strong>Insertion professionnelle des apprentis, patrimoine immobilier et taxe fonci\u00e8re, &#8230; : l\u2019apport des appariements<\/strong><\/h3>\n<p>Dans l\u2019enqu\u00eate Budget des familles, et plus largement dans les enqu\u00eates de l\u2019Insee aupr\u00e8s des m\u00e9nages, la mesure de leurs revenus repose sur l\u2019utilisation de fichiers fiscaux et sociaux, permettant une mesure plus fiable qu\u2019avec des donn\u00e9es d\u00e9claratives. Cela se fait par l\u2019appariement entre les donn\u00e9es de l\u2019enqu\u00eate et des fichiers administratifs, c\u2019est-\u00e0-dire la combinaison de ces donn\u00e9es au niveau de chaque m\u00e9nage.<\/p>\n<p>Combiner diff\u00e9rentes sources permet une observation plus riche et plus efficace. La plupart des instituts de statistique utilisent cette technique pour la production de donn\u00e9es statistiques, en lien avec l\u2019utilisation croissante de donn\u00e9es administratives, souvent tr\u00e8s pr\u00e9cises mais tr\u00e8s cibl\u00e9es quant \u00e0 leur contenu, et qui demandent donc \u00e0 \u00eatre compl\u00e9t\u00e9es.<\/p>\n<p>Diff\u00e9rentes m\u00e9thodes, d\u00e9terministes ou probabilistes, existent pour r\u00e9aliser des appariements (H. Koumarianos, O. Lefebvre et L. Malherbe, 2024). Pour \u00e9valuer la qualit\u00e9 d&rsquo;un appariement, il est n\u00e9cessaire de d\u00e9finir des objectifs et de r\u00e9aliser un arbitrage entre les faux n\u00e9gatifs (ou paires concordantes oubli\u00e9es) et les faux positifs (paires non concordantes accept\u00e9es). La notion de qualit\u00e9 est toujours li\u00e9e \u00e0 l&rsquo;usage envisag\u00e9. Ainsi, lorsque les techniques d&rsquo;appariement sont utilis\u00e9es \u00e0 des fins op\u00e9rationnelles (dans le cadre d&rsquo;op\u00e9rations de gestion administrative par exemple), on porte une grande attention \u00e0 chaque r\u00e9sultat individuel et on cherche le plus souvent \u00e0 \u00e9viter les faux positifs (meilleure pr\u00e9cision possible). Dans un contexte statistique, la pr\u00e9cision est souhaitable, mais on cherche \u00e9galement \u00e0 \u00e9viter un biais de repr\u00e9sentativit\u00e9 induit par un d\u00e9faut de rappel.<\/p>\n<p>Les appariements de donn\u00e9es se d\u00e9veloppent ces derni\u00e8res ann\u00e9es au sein de la statistique publique, port\u00e9s \u00e0 la fois par une demande croissante de donn\u00e9es enrichies, par des donn\u00e9es administratives plus nombreuses et par l&rsquo;augmentation des ressources computationnelles. On peut ainsi citer Fidelimmo (<span style=\"text-decoration: underline;\"><span style=\"color: #0000ff; text-decoration: underline;\">M. <a style=\"color: #0000ff; text-decoration: underline;\" href=\"https:\/\/www.insee.fr\/fr\/information\/6035944?sommaire=6035950\">Andr\u00e9 et O. Meslin, 2022<\/a><\/span><\/span>), qui permet de r\u00e9pondre maintenant \u00e0 des questions portant par exemple sur la taxe fonci\u00e8re\u00a0: quel est le taux d\u2019imposition li\u00e9 \u00e0 la taxe fonci\u00e8re\u00a0; comment est-il r\u00e9parti ? (voir graphique). On peut citer \u00e9galement InserJeunes (<span style=\"text-decoration: underline;\"><span style=\"color: #0000ff; text-decoration: underline;\">L. <a style=\"color: #0000ff; text-decoration: underline;\" href=\"https:\/\/www.insee.fr\/fr\/information\/5398689?sommaire=5398695\">Midy, 2021<\/a><\/span><\/span>), qui permet une mesure plus fine de l\u2019insertion professionnelle des apprentis, au niveau de chaque \u00e9tablissement\u00a0; ou Sirus (<span style=\"text-decoration: underline;\"><span style=\"color: #0000ff; text-decoration: underline;\">A. <a style=\"color: #0000ff; text-decoration: underline;\" href=\"https:\/\/www.insee.fr\/fr\/information\/6665192?sommaire=6665196\">Hachid et M. Leclair, 2022<\/a><\/span><\/span>), qui construit un r\u00e9pertoire statistique des entreprises en combinant diff\u00e9rentes sources.<\/p>\n<p><img loading=\"lazy\" decoding=\"async\" class=\"aligncenter size-full wp-image-9132\" src=\"https:\/\/variances.eu\/wp-content\/uploads\/2026\/04\/Image6.png\" alt=\"\" width=\"642\" height=\"450\" srcset=\"https:\/\/variances.eu\/wp-content\/uploads\/2026\/04\/Image6.png 642w, https:\/\/variances.eu\/wp-content\/uploads\/2026\/04\/Image6-300x210.png 300w, https:\/\/variances.eu\/wp-content\/uploads\/2026\/04\/Image6-600x421.png 600w\" sizes=\"(max-width: 642px) 100vw, 642px\" \/><\/p>\n<h3><strong>Prospecter de nouvelles sources de donn\u00e9es<\/strong><\/h3>\n<p>La num\u00e9risation de l\u2019activit\u00e9 des entreprises a permis \u00e9galement \u00e0 ces derni\u00e8res de d\u00e9velopper des bases de donn\u00e9es li\u00e9es \u00e0 leurs processus de production, utilis\u00e9es en g\u00e9n\u00e9ral pour des objectifs op\u00e9rationnels, mais qui peuvent parfois \u00eatre r\u00e9-utilis\u00e9es pour des enjeux statistiques. C\u2019est le cas par exemple des donn\u00e9es de caisse des enseignes de la grande distribution (super et hyper-march\u00e9s). Ainsi, l\u2019Insee a int\u00e9gr\u00e9 les donn\u00e9es de caisse des grandes surfaces \u00e0 pr\u00e9dominance alimentaire dans la production de l\u2019indice des prix \u00e0 la consommation et a \u00e9tendu ses travaux exploratoires aux donn\u00e9es de t\u00e9l\u00e9phonie mobile, de transactions par carte bancaire, de comptes bancaires ou encore de locations touristiques de courte dur\u00e9e (voir sch\u00e9ma).<\/p>\n<p>Ces nouvelles sources enrichissent la connaissance \u00e9conomique et sociale, mais pr\u00e9sentent souvent des limites : couverture partielle, impr\u00e9cisions g\u00e9ographiques ou temporelles, et absence de variables sociod\u00e9mographiques. Leur exploitation n\u00e9cessite des partenariats renforc\u00e9s avec des op\u00e9rateurs priv\u00e9s, des infrastructures s\u00e9curis\u00e9es, et une m\u00e9thodologie rigoureuse (R. Lesur, 2025).<\/p>\n<p>Les donn\u00e9es de caisse sont exhaustives sur leur p\u00e9rim\u00e8tre\u00a0: l\u2019Insee re\u00e7oit toutes les donn\u00e9es des super et hyper-march\u00e9s. L\u2019int\u00e9gration de ces donn\u00e9es dans un dispositif statistique est donc possible, sans risquer des double comptes ou des probl\u00e8mes de couverture. Outre leur utilisation dans le calcul de l\u2019inflation, ces donn\u00e9es permettent d\u2019affiner certaines analyses telles que celle de l\u2019impact de la p\u00e9riode de forte inflation sur la consommation alimentaire\u00a0: \u00a0les comportements de descente en gamme ont ainsi contribu\u00e9 pour deux points \u00e0 la baisse de la consommation alimentaire, et les prix des produits d\u2019entr\u00e9e de gamme ont augment\u00e9 sensiblement plus vite que les autres (\u00e9clairage de la Note de conjoncture de l\u2019Insee de mars 2026).<\/p>\n<p>Pour les autres donn\u00e9es, la couverture est souvent partielle, ce qui rend plus fragile l\u2019utilisation pour produire des statistiques. Ces donn\u00e9es peuvent n\u00e9anmoins permettre de mener des \u00e9tudes, par exemple d\u2019analyser des comportements des personnes ou des entreprises, en pr\u00e9cisant bien leur champ sp\u00e9cifique. C\u2019est ainsi le cas de l\u2019\u00e9tude men\u00e9e dans le cadre de la note de conjoncture de l\u2019Insee sur le taux d\u2019\u00e9pargne\u00a0: au sein des clients de La Banque Postale, les revenus des retrait\u00e9s ont fortement augment\u00e9 en 2024 mais la consommation n\u2019a pas suivi, ce qui a contribu\u00e9 aux deux tiers de la hausse du taux d\u2019\u00e9pargne (\u00e9clairage de la Note de conjoncture de l\u2019Insee de juin 2025).<\/p>\n<p><img loading=\"lazy\" decoding=\"async\" class=\"aligncenter size-full wp-image-9134\" src=\"https:\/\/variances.eu\/wp-content\/uploads\/2026\/04\/Image1-2.png\" alt=\"\" width=\"462\" height=\"753\" srcset=\"https:\/\/variances.eu\/wp-content\/uploads\/2026\/04\/Image1-2.png 462w, https:\/\/variances.eu\/wp-content\/uploads\/2026\/04\/Image1-2-184x300.png 184w\" sizes=\"(max-width: 462px) 100vw, 462px\" \/><\/p>\n<p>\u200b\u200b<\/p>\n<hr \/>\n<p>L. Tavernier, L\u2019innovation irrigue toute la statistique publique, billet de blog de l\u2019Insee, juin 2025<\/p>\n<p>Avouac, T. Faria, F. Comte, L\u2019apport des technologies cloud pour industrialiser le processus d\u2019innovation statistique, document de travail de l\u2019Insee n\u00b0M2025\/05, 2025<\/p>\n<p>Koumarianos, O. Lefebvre, L. Malherbe, Les appariements\u00a0: finalit\u00e9s, pratiques et enjeux de qualit\u00e9, Courrier des statistiques N11, 2024<\/p>\n<p><span style=\"text-decoration: underline;\"><span style=\"color: #0000ff; text-decoration: underline;\"><a style=\"color: #0000ff; text-decoration: underline;\" href=\"https:\/\/www.insee.fr\/fr\/information\/6035944?sommaire=6035950\">Andr\u00e9 et O. Meslin, <\/a><\/span><\/span>Patrimoine immobilier des m\u00e9nages\u00a0: enseignements d\u2019une exploitation de sources administratives exhaustives, Courrier des statistiques N7, 2022<\/p>\n<p>Midy, Un outil d\u2019appariement sur identifiants indirects\u00a0: l\u2019exemple du syst\u00e8me d\u2019information sur l\u2019insertion des jeunes, Courrier des statistiques N6, 2021<\/p>\n<p><a href=\"https:\/\/www.insee.fr\/fr\/information\/6665192?sommaire=6665196\"><span style=\"text-decoration: underline;\"><span style=\"color: #0000ff; text-decoration: underline;\">Hachid et M. Leclair<\/span><\/span>, <\/a>Sirus, le r\u00e9pertoire d\u2019entreprises au service du statisticien, Courrier des statistiques N8, <span style=\"text-decoration: underline;\"><span style=\"color: #0000ff; text-decoration: underline;\">2<a style=\"color: #0000ff; text-decoration: underline;\" href=\"https:\/\/www.insee.fr\/fr\/information\/6665192?sommaire=6665196\">022<\/a><\/span><\/span><\/p>\n<p>Lesur, Sources de donn\u00e9es priv\u00e9es\u00a0: panorama et perspectives, Courrier des statistiques N13, 2025<\/p>\n<p>Note de conjoncture juin 2025, \u00e9clairage, En\u00a02024, les revenus des retrait\u00e9s clients de La Banque Postale ont fortement augment\u00e9 mais leur consommation n\u2019a pas suivi, ce qui contribuerait aux deux tiers de la hausse du taux d\u2019\u00e9pargne<\/p>\n<p>Note de conjoncture mars 2026, \u00e9clairage, Durant la p\u00e9riode inflationniste, les comportements de descente en gamme ont contribu\u00e9 pour deux points \u00e0 la baisse de la consommation alimentaire, et les prix des produits d\u2019entr\u00e9e de gamme ont augment\u00e9 sensiblement plus vite que les autres<\/p>\n<p>Big Data et Statistiques, Economie et Statistique\/Economics and Statistics, Insee, 1\u00e8re partie, n\u00b0505-506, 2018, 2\u00e8me partie n\u00b0509, 2019<\/p>\n<hr \/>\n<p>&nbsp;<\/p>\n<h6>Dossier Statistiques &#8211; Sommaire :<\/h6>\n<ul>\n<li style=\"list-style-type: none;\">\n<ul>\n<li><span style=\"text-decoration: underline;\"><span style=\"color: #0000ff; text-decoration: underline;\"><a style=\"color: #0000ff; text-decoration: underline;\" href=\"https:\/\/variances.eu\/?p=9143\" target=\"_blank\" rel=\"noopener\">Editorial<\/a><\/span><\/span><\/li>\n<li><span style=\"text-decoration: underline;\"><span style=\"color: #0000ff; text-decoration: underline;\"><a style=\"color: #0000ff; text-decoration: underline;\" href=\"https:\/\/variances.eu\/?p=9092\" target=\"_blank\" rel=\"noopener\">De la causalit\u00e9 \u00e0 la corr\u00e9lation : une histoire riche en r\u00e9flexions<\/a><\/span><\/span><\/li>\n<li><span style=\"text-decoration: underline;\"><span style=\"color: #0000ff; text-decoration: underline;\"><a style=\"color: #0000ff; text-decoration: underline;\" href=\"https:\/\/variances.eu\/?p=9097\" target=\"_blank\" rel=\"noopener\">L\u2019IA g\u00e9n\u00e9rative : une histoire de math\u00e9matiques \u2013 Voyage au c\u0153ur des \u00e9quations qui font parler les machines<\/a><\/span><\/span><\/li>\n<li><span style=\"text-decoration: underline;\"><span style=\"color: #0000ff; text-decoration: underline;\"><a style=\"color: #0000ff; text-decoration: underline;\" href=\"https:\/\/variances.eu\/?p=9103\" target=\"_blank\" rel=\"noopener\">Origine et fondements statistiques de l\u2019hybridation des sources de donn\u00e9es<\/a><\/span><\/span><\/li>\n<li><span style=\"text-decoration: underline;\"><span style=\"color: #0000ff; text-decoration: underline;\"><a style=\"color: #0000ff; text-decoration: underline;\" href=\"https:\/\/variances.eu\/?p=9122\" target=\"_blank\" rel=\"noopener\">Les donn\u00e9es synth\u00e9tiques : promesses et r\u00e9alit\u00e9s<\/a><\/span><\/span><\/li>\n<li><span style=\"text-decoration: underline;\"><span style=\"color: #0000ff; text-decoration: underline;\"><a style=\"color: #0000ff; text-decoration: underline;\" href=\"https:\/\/variances.eu\/?p=9101\" target=\"_blank\" rel=\"noopener\">Innovation et datascience \u00e0 la DGFiP : entretien avec Beno\u00eet Rouppert, d\u00e9l\u00e9gu\u00e9 \u00e0 la transformation num\u00e9rique<\/a><\/span><\/span><\/li>\n<li><span style=\"text-decoration: underline;\"><span style=\"color: #0000ff; text-decoration: underline;\"><a style=\"color: #0000ff; text-decoration: underline;\" href=\"https:\/\/variances.eu\/?p=9131\" target=\"_blank\" rel=\"noopener\">Les innovations en datascience \u00e0 l\u2019Insee : apprentissage statistique et nouvelles sources de donn\u00e9es<\/a><\/span><\/span><\/li>\n<li><span style=\"text-decoration: underline;\"><span style=\"color: #0000ff; text-decoration: underline;\"><a style=\"color: #0000ff; text-decoration: underline;\" href=\"https:\/\/variances.eu\/?p=9126\" target=\"_blank\" rel=\"noopener\">Les sondages \u00e9lectoraux en France \u00e0 l\u2019aune du contr\u00f4le de la Commission des Sondages<\/a><\/span><\/span><\/li>\n<\/ul>\n<\/li>\n<\/ul>\n","protected":false},"excerpt":{"rendered":"<p>L\u2019essor de la datascience, avant m\u00eame l\u2019\u00e9mergence des grands mod\u00e8les de langage, a profond\u00e9ment transform\u00e9 les m\u00e9thodes statistiques. A l\u2019Insee, et plus largement dans le service statistique public, la datascience a favoris\u00e9 de multiples innovations irriguant les m\u00e9thodes statistiques. Elle a conduit \u00e0 l\u2019utilisation de m\u00e9thodes d\u2019apprentissage statistique (machine learning) et leurs applications prometteuses dans [&hellip;]<\/p>\n","protected":false},"author":544,"featured_media":9139,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"_et_pb_use_builder":"","_et_pb_old_content":"","_et_gb_content_width":"","_exactmetrics_skip_tracking":false,"_exactmetrics_sitenote_active":false,"_exactmetrics_sitenote_note":"","_exactmetrics_sitenote_category":0,"footnotes":""},"categories":[18],"tags":[],"class_list":["post-9131","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-statistiques","et-has-post-format-content","et_post_format-et-post-format-standard"],"_links":{"self":[{"href":"https:\/\/variances.eu\/index.php?rest_route=\/wp\/v2\/posts\/9131","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/variances.eu\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/variances.eu\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/variances.eu\/index.php?rest_route=\/wp\/v2\/users\/544"}],"replies":[{"embeddable":true,"href":"https:\/\/variances.eu\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=9131"}],"version-history":[{"count":3,"href":"https:\/\/variances.eu\/index.php?rest_route=\/wp\/v2\/posts\/9131\/revisions"}],"predecessor-version":[{"id":9159,"href":"https:\/\/variances.eu\/index.php?rest_route=\/wp\/v2\/posts\/9131\/revisions\/9159"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/variances.eu\/index.php?rest_route=\/wp\/v2\/media\/9139"}],"wp:attachment":[{"href":"https:\/\/variances.eu\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=9131"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/variances.eu\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=9131"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/variances.eu\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=9131"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}