{"id":9122,"date":"2026-05-08T07:40:38","date_gmt":"2026-05-08T05:40:38","guid":{"rendered":"https:\/\/variances.eu\/?p=9122"},"modified":"2026-05-08T08:10:28","modified_gmt":"2026-05-08T06:10:28","slug":"les-donnees-synthetiques-promesses-et-realites","status":"publish","type":"post","link":"https:\/\/variances.eu\/?p=9122","title":{"rendered":"Les donn\u00e9es synth\u00e9tiques : promesses et r\u00e9alit\u00e9s"},"content":{"rendered":"<h3><strong>Introduction\u00a0<\/strong><\/h3>\n<p>En 1993, Donald Rubin invente le terme \u00ab microdonn\u00e9es synth\u00e9tiques \u00bb pour d\u00e9crire comment un jeu de donn\u00e9es contenant des informations sensibles pouvait \u00eatre rendu public. La m\u00e9thode propos\u00e9e par Rubin consiste \u00e0 transformer les donn\u00e9es initiales en de nouvelles donn\u00e9es statistiquement identiques, mais individuellement diff\u00e9rentes. Drechsler et Haensch (2024) en dressent un panorama actuel.<\/p>\n<p>L\u2019id\u00e9e de mod\u00e9liser des donn\u00e9es pour am\u00e9liorer le fichier d\u2019origine est bien ant\u00e9rieure \u00e0 l\u2019article de Rubin. Hansen, Hurwitz et Madow (1953) d\u00e9crivent des m\u00e9thodes d\u2019imputation de type <em>hot deck<\/em> (le terme lui-m\u00eame appara\u00eet apr\u00e8s la publication de cet ouvrage). Fellegi et Sunter (1959) posent les bases du rapprochement probabiliste entre fichiers, menant aux fusions.<\/p>\n<p>Une diff\u00e9rence essentielle entre ces m\u00e9thodes de fusion, injection ou imputation et l\u2019article fondateur de Rubin est que les individus synth\u00e9tiques de ce dernier sont enti\u00e8rement nouveaux. Dans le premier cas, les moyennes et covariances sont en grande partie observ\u00e9es sur donn\u00e9es r\u00e9elles. Dans le deuxi\u00e8me, tout r\u00e9sulte d\u2019une mod\u00e9lisation statistique.<\/p>\n<p>Avec l\u2019apparition r\u00e9cente de l\u2019intelligence artificielle g\u00e9n\u00e9rative, la notion a gagn\u00e9 en popularit\u00e9. Selon Google Trends, le nombre de recherches sur \u00ab donn\u00e9es synth\u00e9tiques \u00bb a \u00e9t\u00e9 multipli\u00e9 par quatre entre janvier 2022 et janvier 2025. Les donn\u00e9es synth\u00e9tiques ne sont maintenant plus seulement quantitatives\u00a0: on peut g\u00e9n\u00e9rer des verbatim, des images, ou interroger des r\u00e9pondants synth\u00e9tiques.<\/p>\n<p>Dans une premi\u00e8re section de cet article, nous passons en revue les diff\u00e9rents cas d\u2019usage de donn\u00e9es synth\u00e9tiques mentionn\u00e9s dans la litt\u00e9rature sur le sujet. Puis nous en discutons les avantages et inconv\u00e9nients.<\/p>\n<h3><strong>Les cas d\u2019usage des donn\u00e9es synth\u00e9tiques<\/strong><\/h3>\n<p>Les donn\u00e9es synth\u00e9tiques d\u00e9signent des donn\u00e9es artificiellement g\u00e9n\u00e9r\u00e9es \u00e0 partir de mod\u00e8les statistiques ou d\u2019apprentissage automatique, visant \u00e0 reproduire les propri\u00e9t\u00e9s des donn\u00e9es r\u00e9elles. Dans la suite des travaux de Rubin, il s\u2019agit de reproduire ces donn\u00e9es sans en r\u00e9v\u00e9ler les informations sensibles (Jordon et al., 2022 ; Raghunathan, 2021). L\u2019essor des donn\u00e9es synth\u00e9tiques s\u2019accompagne d\u2019une diversification rapide des domaines d\u2019application.<\/p>\n<h5><strong>Sant\u00e9 et biom\u00e9decine<\/strong><\/h5>\n<p>Le domaine m\u00e9dical est l\u2019un des terrains d\u2019application les plus avanc\u00e9s. Les donn\u00e9es de sant\u00e9 \u00e9tant fortement sensibles et r\u00e9glement\u00e9es, les donn\u00e9es synth\u00e9tiques offrent une alternative strat\u00e9gique pour entra\u00eener des mod\u00e8les de <em>machine learning<\/em> sans exposer les donn\u00e9es des patients, partager des bases de donn\u00e9es entre institutions et tester des hypoth\u00e8ses cliniques.<\/p>\n<p>Chen et al. (2021) montrent que les donn\u00e9es synth\u00e9tiques \u2013 par exemple, l\u2019imagerie m\u00e9dicale de l\u00e9sions canc\u00e9reuses &#8211; peuvent atteindre un niveau de performance comparable aux donn\u00e9es r\u00e9elles pour certaines t\u00e2ches (diagnostic assist\u00e9, pr\u00e9diction). Les auteurs mettent toutefois en garde sur les risques persistants de violation de la vie priv\u00e9e, appelant les r\u00e9gulateurs \u00e0 se saisir du sujet. De m\u00eame, Hernandez et al. (2022), \u00e0 partir d\u2019une revue syst\u00e9matique de la litt\u00e9rature entre 2016 et 2021, soulignent leur utilisation croissante dans les dossiers m\u00e9dicaux \u00e9lectroniques.<\/p>\n<h5><strong>Simulations de politiques publiques<\/strong><\/h5>\n<p>Les donn\u00e9es synth\u00e9tiques sont largement mobilis\u00e9es pour construire des populations artificielles permettant de simuler des politiques publiques. Hradec et al. (2022) montrent que ces approches permettent de mod\u00e9liser des dynamiques d\u00e9mographiques, d\u2019\u00e9valuer l\u2019impact de politiques fiscales, sanitaires ou urbaines, de combler les lacunes des donn\u00e9es administratives.<\/p>\n<p>L\u2019int\u00e9r\u00eat principal r\u00e9side dans la r\u00e9alisation de simulations de politiques publiques. Hradec et al. (2022) montrent ainsi comment mod\u00e9liser l\u2019impact de la lev\u00e9e du confinement post pand\u00e9mie \u00e0 partir des donn\u00e9es de l\u2019Insee, en particulier le fichier des donn\u00e9es individuelles du recensement. Selon eux, peu d\u2019instituts nationaux sont capables de fournir les donn\u00e9es granulaires n\u00e9cessaires \u00e0 cette mod\u00e9lisation \u00e0 l\u2019\u00e9chelle de la totalit\u00e9 d\u2019un pays.<\/p>\n<h5><strong>Donn\u00e9es d\u2019enqu\u00eates<\/strong><\/h5>\n<p>Dans le domaine des donn\u00e9es d\u2019enqu\u00eate, une utilisation prometteuse des donn\u00e9es synth\u00e9tiques consiste \u00e0 estimer le profil d\u2019une population \u00e0 un niveau local, lorsque ce profil n\u2019est connu qu\u2019\u00e0 un niveau plus global. L\u2019int\u00e9r\u00eat des donn\u00e9es synth\u00e9tiques vient alors du fait qu\u2019il serait impossible de collecter \u00e0 un co\u00fbt raisonnable les donn\u00e9es requises au niveau local. Par exemple\u00a0:<\/p>\n<ul>\n<li>C onna\u00eetre le profil des clients des points de vente de presse pour les cibler avec de la publicit\u00e9 sur le point de vente. Collecter des donn\u00e9es sur les clients de tous les points de vente est impossible. Il est en revanche possible de g\u00e9n\u00e9rer des donn\u00e9es synth\u00e9tiques \u00e0 partir d\u2019enqu\u00eates globales sur l\u2019audience de la presse, fournissant la structure socio-d\u00e9mographique \u2013 et bien plus \u2013 de la population des acheteurs primaires. Connaissant les ventes d\u2019un point de vente pour chaque publication, on peut reconstituer les caract\u00e9ristiques de sa client\u00e8le et g\u00e9n\u00e9rer un jeu de donn\u00e9es synth\u00e9tiques.<\/li>\n<li>La mesure d\u2019audience de l\u2019affichage r\u00e9alis\u00e9e par Mobim\u00e9trie et l\u2019institut Ipsos-BVA repose sur la g\u00e9n\u00e9ration des donn\u00e9es synth\u00e9tiques, de mani\u00e8re similaire \u00e0 ce qui est d\u00e9crit dans Hradec et al. (2022).<\/li>\n<\/ul>\n<p>Plus r\u00e9cemment, certains instituts d\u2019\u00e9tudes de march\u00e9 ont propos\u00e9 d\u2019utiliser les donn\u00e9es synth\u00e9tiques pour renforcer les \u00e9chantillons : l\u2019id\u00e9e serait qu\u2019ajouter des donn\u00e9es cr\u00e9\u00e9es de mani\u00e8re synth\u00e9tique \u00e0 des donn\u00e9es collect\u00e9es permettrait de gagner en pr\u00e9cision, et ainsi de r\u00e9soudre les probl\u00e8mes li\u00e9s aux \u00e9chantillons de taille faible. Cette voie d\u2019utilisation des donn\u00e9es synth\u00e9tiques semble cependant peu prometteuse, du fait de leur corr\u00e9lation avec les donn\u00e9es initiales.<\/p>\n<p>Un des d\u00e9veloppements r\u00e9cents les plus marquants concerne l\u2019utilisation de donn\u00e9es synth\u00e9tiques pour simuler des r\u00e9pondants dans des enqu\u00eates.<\/p>\n<p>Les <em>Large Language Models<\/em> (LLM) aident \u00e0 g\u00e9n\u00e9rer des \u201cr\u00e9pondants synth\u00e9tiques\u201d, capables de r\u00e9pondre \u00e0 des questionnaires ou de simuler des comportements consommateurs (Sarstedt et al., 2024 ; Viglia et al., 2024). Cela ouvre plusieurs perspectives\u00a0: r\u00e9duction des co\u00fbts d\u2019enqu\u00eate, tests rapides de concepts ou campagnes, acc\u00e8s \u00e0 des populations difficiles \u00e0 atteindre. Sarstedt et al. (2024) recommandent d\u2019utiliser les r\u00e9pondants synth\u00e9tiques uniquement en amont d\u2019une \u00e9tude quantitative, \u00e0 titre de pilote. En dehors de cela, un \u00e9chantillon <em>benchmark<\/em> de r\u00e9pondants r\u00e9els leur semble indispensable.<\/p>\n<p>Une exp\u00e9rimentation \u00e0 grande \u00e9chelle sur des r\u00e9pondants synth\u00e9tiques est d\u00e9crite par Peng et al. (2025). A partir d\u2019un \u00e9chantillon de 2 000 r\u00e9pondants \u00e0 500 questions, ils cr\u00e9ent 2 000 jumeaux num\u00e9riques. Ils comparent ensuite les r\u00e9ponses de ces deux groupes \u00e0 19 enqu\u00eates sur des sujets vari\u00e9s (opinions politiques, consommation de diff\u00e9rents produits, perceptions de marques, \u2026.), donc en particulier \u00e0 des questions nouvelles, non incluses dans les 500 initiales. Deux conclusions fortes en \u00e9mergent\u00a0:<\/p>\n<ul>\n<li>Tout d\u2019abord, la corr\u00e9lation entre les r\u00e9ponses des jumeaux num\u00e9riques et celles des vrais individus d\u00e9pend beaucoup du contexte. En particulier, elle est faible pour les opinions politiques.<\/li>\n<li>Ensuite, les jumeaux num\u00e9riques sont \u00ab\u00a0hyper-rationnels\u00a0\u00bb. Les auteurs conseillent de les consid\u00e9rer plut\u00f4t comme des consultants bien inform\u00e9s que comme des clones des r\u00e9pondants humains.<\/li>\n<\/ul>\n<p>Bisbee et al. (2024) et Shrestha et al. (2024) sont critiques sur ces d\u00e9veloppements. D\u2019apr\u00e8s eux, les r\u00e9pondants synth\u00e9tiques reproduisent des r\u00e9ponses st\u00e9r\u00e9otyp\u00e9es et peu diversifi\u00e9es. En outre, en mati\u00e8re d\u2019opinion, les donn\u00e9es synth\u00e9tiques ne peuvent actuellement remplacer les panels\u00a0faute de mod\u00e8le explicatif des tendances.<\/p>\n<h5><strong>Machine learning et data augmentation<\/strong><\/h5>\n<p>Un cas de \u00ab\u00a0<em>data augmentation<\/em> \u00bb, plus int\u00e9ressant que celui mentionn\u00e9 au paragraphe pr\u00e9c\u00e9dent sur le renforcement de petits \u00e9chantillons dans les enqu\u00eates, concerne les donn\u00e9es non structur\u00e9es. Dans des contextes comme la vision par ordinateur ou les syst\u00e8mes autonomes (Serbouh Touazi et al., 2025), les donn\u00e9es synth\u00e9tiques permettent de g\u00e9n\u00e9rer des sc\u00e9narios difficiles \u00e0 observer (situations dangereuses, \u00e9v\u00e9nements rares). Dans le m\u00eame esprit, pour des donn\u00e9es d\u2019imagerie m\u00e9dicale disponibles en petit nombre, Chadebec et al. (2022) montrent l\u2019int\u00e9r\u00eat de g\u00e9n\u00e9rer des images synth\u00e9tiques pour am\u00e9liorer le diagnostic.<\/p>\n<p>L\u2019algorithme de sur\u00e9chantillonnage SMOTE (<em>Synthetic Minority Oversampling Technique<\/em>) est souvent utilis\u00e9 pour augmenter la taille du groupe minoritaire dans des donn\u00e9es fortement d\u00e9s\u00e9quilibr\u00e9es comme en d\u00e9tection de fraude. SMOTE cr\u00e9e de nouvelles donn\u00e9es par interpolation lin\u00e9aire entre voisins du groupe minoritaire. Idwan et al. (2025) ainsi que Song et Liu (2024) sont des r\u00e9f\u00e9rences pertinentes.<\/p>\n<h3><strong>Les donn\u00e9es synth\u00e9tiques sont-elles solubles dans la statistique\u00a0?<\/strong><\/h3>\n<h5><strong>Synth\u00e8se de donn\u00e9es et simulation<\/strong><\/h5>\n<p>Comme on l\u2019a vu, l\u2019id\u00e9e sous-jacente aux donn\u00e9es synth\u00e9tiques n\u2019est pas r\u00e9cente et s\u2019inscrit dans une tradition bien \u00e9tablie. A bien y r\u00e9fl\u00e9chir, est-ce si diff\u00e9rent de la simulation des ph\u00e9nom\u00e8nes al\u00e9atoires introduite dans les ann\u00e9es 1940 ? On \u00e9tudiait ainsi le comportement de mod\u00e8les trop complexes pour avoir des solutions analytiques.<\/p>\n<p>Tout comme les m\u00e9thodes de Monte Carlo, les propri\u00e9t\u00e9s des donn\u00e9es synth\u00e9tiques reposent sur la bonne ad\u00e9quation du mod\u00e8le sous-jacent \u00e0 la r\u00e9alit\u00e9. On peut donc affirmer qu\u2019il n\u2019y a pas de donn\u00e9es synth\u00e9tiques sans un mod\u00e8le.<\/p>\n<h5><strong>Explicabilit\u00e9 et biais<\/strong><\/h5>\n<p>Un probl\u00e8me majeur est que les mod\u00e8les utilis\u00e9s pour cr\u00e9er des donn\u00e9es synth\u00e9tiques au sens de cet article sont des mod\u00e8les d\u2019IA, des bo\u00eetes noires la plupart du temps, d\u00e9pendant d\u2019un nombre colossal de param\u00e8tres. Faire confiance \u00e0 des mod\u00e8les que l\u2019on ne comprend pas n\u2019est pas toujours un obstacle\u00a0: dans la vie quotidienne, nous utilisons de nombreux dispositifs dont nous ignorons le fonctionnement d\u00e9taill\u00e9, mais qui remplissent leur fonction de mani\u00e8re fiable. Dans des domaines sensibles, l\u2019explicabilit\u00e9, \u00e0 d\u00e9faut de l\u2019interpr\u00e9tabilit\u00e9, devient une exigence.<\/p>\n<p>Les mod\u00e8les d\u2019IA, qu\u2019ils soient ou non supervis\u00e9s, reposent sur des donn\u00e9es d\u2019apprentissage avec leurs qualit\u00e9s et leurs d\u00e9fauts. Par construction les donn\u00e9es synth\u00e9tiques vont ressembler aux donn\u00e9es d&rsquo;entra\u00eenement, pr\u00e9senter les m\u00eames biais, voire les amplifier. On peut ainsi aboutir \u00e0 des d\u00e9cisions erron\u00e9es, peut-\u00eatre m\u00eame injustes, en augmentant artificiellement les donn\u00e9es d\u2019une cat\u00e9gorie sous-repr\u00e9sent\u00e9e (par exemple en mati\u00e8re de recrutement ou d\u2019octroi de cr\u00e9dit).<\/p>\n<p>Remarquons que l\u2019on exige souvent des propri\u00e9t\u00e9s contradictoires des donn\u00e9es synth\u00e9tiques. On veut \u00e0 la fois qu\u2019elles ressemblent aux donn\u00e9es d\u2019apprentissage et qu\u2019elles en soient suffisamment diff\u00e9rentes pour que le mod\u00e8le puisse \u00ab\u00a0g\u00e9n\u00e9raliser\u00a0\u00bb\u00a0: c\u2019est-\u00e0-dire non seulement obtenir de bons r\u00e9sultats sur ses donn\u00e9es d&rsquo;entra\u00eenement, mais aussi sur des donn\u00e9es que le mod\u00e8le n&rsquo;a jamais vues auparavant (Jordon et al., 2022).<\/p>\n<p>Les donn\u00e9es synth\u00e9tiques peuvent \u00e9galement \u00eatre trop \u00ab\u00a0propres\u00a0\u00bb, insuffisamment bruit\u00e9es pour refl\u00e9ter la complexit\u00e9 du monde r\u00e9el, ce qui peut induire une confiance excessive dans leur utilisation.<\/p>\n<h5><strong>Taille fictive ou taille effective ?<\/strong><\/h5>\n<p>Dans un \u00e9chantillon fortement d\u00e9s\u00e9quilibr\u00e9 (par exemple dans le cas de la d\u00e9tection de fraude o\u00f9 nombre de mod\u00e8les s\u2019av\u00e8rent peu robustes ni efficaces en termes de faux positifs), il est d\u2019autant plus tentant d\u2019augmenter les cat\u00e9gories rares par des donn\u00e9es synth\u00e9tiques que c\u2019est facile \u00e0 faire. On peut doubler l\u2019effectif d\u2019une cat\u00e9gorie en passant par exemple de 300 \u00e0 600 observations. Mais puisque l\u2019on peut cr\u00e9er de fa\u00e7on illimit\u00e9e des donn\u00e9es synth\u00e9tiques pourquoi ne pas en ajouter 3000, et m\u00eame des milliers ou des millions pour am\u00e9liorer l\u2019inf\u00e9rence ? On con\u00e7oit ais\u00e9ment que cela est absurde et que l\u2019on ne cr\u00e9e pas d\u2019information nouvelle.<\/p>\n<p>Si on reste raisonnable en compl\u00e9tant par exemple cet \u00e9chantillon de 300 observations par 150 observations synth\u00e9tiques, on aimerait pouvoir calculer des intervalles de confiance plus \u00e9troits ou faire des tests plus puissants. Peut-on consid\u00e9rer que l\u2019\u00e9chantillon a maintenant 450 observations ou plut\u00f4t une taille comprise entre 300 et 450 que l\u2019on appelle l\u2019ESS (<em>effective sample size<\/em>)\u00a0?<\/p>\n<p>La r\u00e9ponse n\u2019est ni simple, ni unique car il existe diff\u00e9rentes approches ; elle repose sur le fait, non trivial, que les donn\u00e9es synth\u00e9tiques ne sont pas ind\u00e9pendantes entre elles et ne constituent pas un \u00e9chantillon iid (ind\u00e9pendant et identiquement distribu\u00e9). En effet, m\u00eame si elles sont tir\u00e9es ind\u00e9pendamment dans le mod\u00e8le sous-jacent, elles ne sont que conditionnellement ind\u00e9pendantes, car le mod\u00e8le a \u00e9t\u00e9 entra\u00een\u00e9 sur les m\u00eames donn\u00e9es. Raab et al, (2006) et Decruyenaere et al. (2023) montrent sous certaines hypoth\u00e8ses qu\u2019ajouter <em>M<\/em> observations synth\u00e9tiques non ind\u00e9pendantes \u00e0 <em>N<\/em> observations d\u2019apprentissage ind\u00e9pendantes est \u00e9quivalent \u00e0 ajouter <img loading=\"lazy\" decoding=\"async\" class=\"size-full wp-image-9124 alignnone\" src=\"https:\/\/variances.eu\/wp-content\/uploads\/2026\/04\/Image4.png\" alt=\"\" width=\"70\" height=\"42\" \/>observations iid. D\u2019autres approches sont bas\u00e9es sur une analogie avec des donn\u00e9es spatialement corr\u00e9l\u00e9es.<\/p>\n<h5><strong>Jusqu\u2019o\u00f9 aller ?<\/strong><\/h5>\n<p>Des \u00e9tudes r\u00e9centes (Bertrand et al., 2023\u00a0; Shumaylov et al., 2024) ont attir\u00e9 l\u2019attention sur le ph\u00e9nom\u00e8ne d\u2019<em>effondrement des mod\u00e8les<\/em> (<em>model collapse<\/em>) qui survient quand les donn\u00e9es d&rsquo;entra\u00eenement d\u2019un mod\u00e8le d\u2019IA sont aliment\u00e9es par des donn\u00e9es synth\u00e9tiques qui, elles- m\u00eames, vont servir \u00e0 produire de nouvelles donn\u00e9es synth\u00e9tiques etc. Cette pollution entra\u00eene une d\u00e9gradation progressive de la qualit\u00e9 et de la diversit\u00e9 des donn\u00e9es produites.<\/p>\n<h3><strong>Conclusion<\/strong><\/h3>\n<p>Au-del\u00e0 de l\u2019effet de mode, qui est r\u00e9el, que retenir sur les donn\u00e9es synth\u00e9tiques\u00a0? Les cas d\u2019usage mentionn\u00e9s dans cet article permettent de tirer quelques conclusions\u00a0:<\/p>\n<ul>\n<li>Les donn\u00e9es synth\u00e9tiques sont utiles dans des applications bien identifi\u00e9es. Par exemple, quand il s\u2019agit de donn\u00e9es d\u2019enqu\u00eate, quand la collecte aurait un tel co\u00fbt qu\u2019on ne pourrait pas la mettre en \u0153uvre.<\/li>\n<li>A ce stade, il semble impossible de se passer de donn\u00e9es r\u00e9elles. Les donn\u00e9es synth\u00e9tiques sont un compl\u00e9ment.<\/li>\n<li>Les deux dimensions de base qui permettent de juger de la qualit\u00e9 statistique (biais, pr\u00e9cision) sont toujours pertinentes. Les statisticiens ont un r\u00f4le pr\u00e9\u00e9minent \u00e0 jouer dans l\u2019adoption de ce type de techniques.<\/li>\n<\/ul>\n<h3><strong>R\u00e9f\u00e9rences<\/strong><\/h3>\n<p>Bertrand, Q., Bose, A. J., Duplessis, A., Jiralerspong, M., &amp; Gidel, G. (2023). On the stability of iterative retraining of generative models on their own data. arXiv preprint arXiv:2310.00429.<\/p>\n<p>Bisbee, J., Clinton, J. D., Dorff, C., Kenkel, B., &amp; Larson, J. M. (2024). Synthetic replacements for human survey data? The perils of large language models. <em>Political Analysis<\/em>, <em>32<\/em>(4), 401-416.<\/p>\n<p>Chadebec, C., Thibeau-Sutre, E., Burgos, N., &amp; Allassonni\u00e8re, S. (2022). Data augmentation in high dimensional low sample size setting using a geometry-based variational autoencoder. <em>IEEE Transactions on Pattern Analysis and Machine Intelligence<\/em>, <em>45<\/em>(3), 2879-2896.<\/p>\n<p>Chen, R. J., Lu, M. Y., Chen, T. Y., Williamson, D. F., &amp; Mahmood, F. (2021). Synthetic data in machine learning for medicine and healthcare. <em>Nature Biomedical Engineering<\/em>, <em>5<\/em>(6), 493-497.<\/p>\n<p>Decruyenaere, A., Dehaene, H., Rabaey, P., Polet, C., Decruyenaere, J., Vansteelandt, S., &amp; Demeester, T. (2023). Synthetic Data: Can We Trust Statistical Estimators?. In <em>Deep Generative Models for Health Workshop NeurIPS 2023<\/em>.<\/p>\n<p>Drechsler, J., &amp; Haensch, A. C. (2024). 30 years of synthetic data. <em>Statistical Science<\/em>, <em>39<\/em>(2), 221-242.<\/p>\n<p>Fellegi, I. P. &amp; Sunter, A. B. (1969). A theory for record linkage. <em>Journal of the American Statistical Association, 64(328), 1183-1210.<\/em><\/p>\n<p>Hansen, M.H., Hurwitz, W.N. &amp; Madow, W.G. (1953). Sample Survey Methods And Theory. Wiley<\/p>\n<p>Hernandez, M., Epelde, G., Alberdi, A., Cilla, R., &amp; Rankin, D. (2022). Synthetic data generation for tabular health records: A systematic review. <em>Neurocomputing<\/em>, <em>493<\/em>, 28-45.<\/p>\n<p>Hradec, J., Craglia, M., Di Leo, M., de Nigris, S., Ostlaender, N., &amp; Nicholson, N. (2022). <em>Multipurpose synthetic population for policy applications<\/em> (No. JRC128595). Joint Research Centre.<\/p>\n<p>Idwan, S., Etaiwi, W., Rafayia, H., &amp; Matar, I. (2025). A comprehensive review of statistical variants and enhancements of SMOTE oversampling method. <em>International Journal of Data Science and Analytics<\/em>, <em>20<\/em>(8), 6887-6904.<\/p>\n<p>Jiang, Y., Liang, S., &amp; Choi, J. (2025, July). Synthetic Survey Data Generation and Evaluation. In <em>Proceedings of the 31st ACM SIGKDD Conference on Knowledge Discovery and Data Mining V. 1<\/em> (pp. 2292-2302).<\/p>\n<p>Jordon, J., Szpruch, L., Houssiau, F., Bottarelli, M., Cherubin, G., Maple, C., &#8230; &amp; Weller, A. (2022). Synthetic Data&#8211;what, why and how?. <em>arXiv preprint arXiv:2205.03257<\/em>.<\/p>\n<p>Joshi, I., Grimmer, M., Rathgeb, C., Busch, C., Bremond, F., &amp; Dantcheva, A. (2024). Synthetic data in human analysis: A survey. <em>IEEE Transactions on Pattern Analysis and Machine Intelligence<\/em>, <em>46<\/em>(7), 4957-4976.<\/p>\n<p>Lu, Y., Chen, L., Zhang, Y., Shen, M., Wang, H., Wang, X., &#8230; &amp; Wei, W. (2023). Machine learning for synthetic data generation: a review. <em>arXiv preprint arXiv:2302.04062<\/em>.<\/p>\n<p>Peng, T., Gui, G., Merlau, D. J., Fan, G. J., Sliman, M. B., Brucks, M., &#8230; &amp; Toubia, O. (2025). A mega-study of digital twins reveals strengths, weaknesses and opportunities for further improvement. arXiv preprint arXiv:2509.19088.<\/p>\n<p>Raab, G. M., Nowok, B., &amp; Dibben, C. (2016). Practical data synthesis for large samples. <em>Journal of Privacy and Confidentiality<\/em>, <em>7<\/em>(3), 67-97.<\/p>\n<p>Raghunathan, T. E. (2021). Synthetic data. <em>Annual review of statistics and its application<\/em>, <em>8<\/em>(1), 129-140.<\/p>\n<p>Rubin, D.B. (1993) : Statistical Disclosure Limitation<em>. Journal of Official Statistics, vol. 9, n\u00b02, 461-468.<\/em><\/p>\n<p>Sarstedt, M., Adler, S. J., Rau, L., &amp; Schmitt, B. (2024). Using large language models to generate silicon samples in consumer and marketing research: Challenges, opportunities, and guidelines. <em>Psychology &amp; Marketing<\/em>, <em>41<\/em>(6), 1254-1270.<\/p>\n<p>Serbouh Touazi, C., Ahriz, I., Niang, N., &amp; Piperno, A. (2025). Comparative Analysis of SMOTE and ROSE Oversampling Techniques for kNN-Based Autonomous Vehicle Behavior Modeling. <em>Journal of Communications Software and Systems<\/em>, <em>21<\/em>(2), 132-143.<\/p>\n<p>Shrestha, P., Krpan, D., Koaik, F., Schnider, R., Sayess, D., &amp; Binbaz, M. S. (2024). Beyond WEIRD: Can synthetic survey participants substitute for humans in global policy research?. <em>Behavioral Science &amp; Policy<\/em>, <em>10<\/em>(2), 26-45.<\/p>\n<p>Shumailov, I., Shumaylov, Z., Zhao, Y., Papernot, N., Anderson, R., &amp; Gal, Y. (2024). AI models collapse when trained on recursively generated data. <em>Nature<\/em>, <em>631(8022)<\/em>, 755-759.<\/p>\n<p>Song, J., &amp; Liu, J. (2024). Ismote: a more accurate alternative for smote. <em>Neural Processing Letters<\/em>, <em>56<\/em>(5), 240.<\/p>\n<p>Viglia, G., Adler, S. J., Miltgen, C. L., &amp; Sarstedt, M. (2024). The use of synthetic data in tourism. <em>Annals of Tourism Research<\/em>, <em>108<\/em>, 103819.<\/p>\n<h3><strong>Quelques sites web<\/strong><\/h3>\n<p><span style=\"text-decoration: underline;\"><span style=\"color: #0000ff; text-decoration: underline;\"><a style=\"color: #0000ff; text-decoration: underline;\" href=\"https:\/\/en.wikipedia.org\/wiki\/Synthetic_data\">https:\/\/en.wikipedia.org\/wiki\/Synthetic_data<\/a><\/span><\/span><\/p>\n<p><span style=\"text-decoration: underline;\"><span style=\"color: #0000ff; text-decoration: underline;\"><a style=\"color: #0000ff; text-decoration: underline;\" href=\"https:\/\/static-webmail.mediametrie.com\/Livre+blanc+Hybride+et+IA\/FR\/Mediametrie+Livre+Blanc+Hybride+et+IA.pdf\">https:\/\/static-webmail.mediametrie.com\/Livre+blanc+Hybride+et+IA\/FR\/Mediametrie+Livre+Blanc+Hybride+et+IA.pdf<\/a><\/span><\/span><\/p>\n<p><span style=\"text-decoration: underline;\"><span style=\"color: #0000ff; text-decoration: underline;\"><a style=\"color: #0000ff; text-decoration: underline;\" href=\"https:\/\/syntec-conseil.fr\/wp-content\/uploads\/2025\/06\/Donnees-synthetiques-et-etudes-marketing-opinion.pdf\">https:\/\/syntec-conseil.fr\/wp-content\/uploads\/2025\/06\/Donnees-synthetiques-et-etudes-marketing-opinion.pdf<\/a><\/span><\/span><\/p>\n<p><span style=\"text-decoration: underline;\"><span style=\"color: #0000ff; text-decoration: underline;\"><a style=\"color: #0000ff; text-decoration: underline;\" href=\"https:\/\/www.gartner.com\/en\/newsroom\/press-releases\/2022-06-22-is-synthetic-data-the-future-of-ai\">https:\/\/www.gartner.com\/en\/newsroom\/press-releases\/2022-06-22-is-synthetic-data-the-future-of-ai<\/a><\/span><\/span><\/p>\n<p><span style=\"text-decoration: underline;\"><span style=\"color: #0000ff; text-decoration: underline;\"><a style=\"color: #0000ff; text-decoration: underline;\" href=\"https:\/\/www.lemagit.fr\/conseil\/Donnees-synthetiques-ou-reelles-quel-choix-pour-lanalytique-predictive\">https:\/\/www.lemagit.fr\/conseil\/Donnees-synthetiques-ou-reelles-quel-choix-pour-lanalytique-predictive<\/a><\/span><\/span><\/p>\n<p><span style=\"text-decoration: underline;\"><span style=\"color: #0000ff; text-decoration: underline;\"><a style=\"color: #0000ff; text-decoration: underline;\" href=\"https:\/\/www.ibm.com\/think\/topics\/synthetic-data\">https:\/\/www.ibm.com\/think\/topics\/synthetic-data<\/a><\/span><\/span><\/p>\n<p><span style=\"text-decoration: underline;\"><span style=\"color: #0000ff; text-decoration: underline;\"><a style=\"color: #0000ff; text-decoration: underline;\" href=\"https:\/\/aws.amazon.com\/fr\/what-is\/synthetic-data\/\">https:\/\/aws.amazon.com\/fr\/what-is\/synthetic-data\/<\/a><\/span><\/span><\/p>\n<hr \/>\n<p>&nbsp;<\/p>\n<h6>Dossier Statistiques &#8211; Sommaire :<\/h6>\n<ul>\n<li style=\"list-style-type: none;\">\n<ul>\n<li><span style=\"text-decoration: underline;\"><span style=\"color: #0000ff; text-decoration: underline;\"><a style=\"color: #0000ff; text-decoration: underline;\" href=\"https:\/\/variances.eu\/?p=9143\" target=\"_blank\" rel=\"noopener\">Editorial<\/a><\/span><\/span><\/li>\n<li><span style=\"text-decoration: underline;\"><span style=\"color: #0000ff; text-decoration: underline;\"><a style=\"color: #0000ff; text-decoration: underline;\" href=\"https:\/\/variances.eu\/?p=9092\" target=\"_blank\" rel=\"noopener\">De la causalit\u00e9 \u00e0 la corr\u00e9lation : une histoire riche en r\u00e9flexions<\/a><\/span><\/span><\/li>\n<li><span style=\"text-decoration: underline;\"><span style=\"color: #0000ff; text-decoration: underline;\"><a style=\"color: #0000ff; text-decoration: underline;\" href=\"https:\/\/variances.eu\/?p=9097\" target=\"_blank\" rel=\"noopener\">L\u2019IA g\u00e9n\u00e9rative : une histoire de math\u00e9matiques \u2013 Voyage au c\u0153ur des \u00e9quations qui font parler les machines<\/a><\/span><\/span><\/li>\n<li><span style=\"text-decoration: underline;\"><span style=\"color: #0000ff; text-decoration: underline;\"><a style=\"color: #0000ff; text-decoration: underline;\" href=\"https:\/\/variances.eu\/?p=9103\" target=\"_blank\" rel=\"noopener\">Origine et fondements statistiques de l\u2019hybridation des sources de donn\u00e9es<\/a><\/span><\/span><\/li>\n<li><span style=\"text-decoration: underline;\"><span style=\"color: #0000ff; text-decoration: underline;\"><a style=\"color: #0000ff; text-decoration: underline;\" href=\"https:\/\/variances.eu\/?p=9122\" target=\"_blank\" rel=\"noopener\">Les donn\u00e9es synth\u00e9tiques : promesses et r\u00e9alit\u00e9s<\/a><\/span><\/span><\/li>\n<li><span style=\"text-decoration: underline;\"><span style=\"color: #0000ff; text-decoration: underline;\"><a style=\"color: #0000ff; text-decoration: underline;\" href=\"https:\/\/variances.eu\/?p=9101\" target=\"_blank\" rel=\"noopener\">Innovation et datascience \u00e0 la DGFiP : entretien avec Beno\u00eet Rouppert, d\u00e9l\u00e9gu\u00e9 \u00e0 la transformation num\u00e9rique<\/a><\/span><\/span><\/li>\n<li><span style=\"text-decoration: underline;\"><span style=\"color: #0000ff; text-decoration: underline;\"><a style=\"color: #0000ff; text-decoration: underline;\" href=\"https:\/\/variances.eu\/?p=9131\" target=\"_blank\" rel=\"noopener\">Les innovations en datascience \u00e0 l\u2019Insee : apprentissage statistique et nouvelles sources de donn\u00e9es<\/a><\/span><\/span><\/li>\n<li><span style=\"text-decoration: underline;\"><span style=\"color: #0000ff; text-decoration: underline;\"><a style=\"color: #0000ff; text-decoration: underline;\" href=\"https:\/\/variances.eu\/?p=9126\" target=\"_blank\" rel=\"noopener\">Les sondages \u00e9lectoraux en France \u00e0 l\u2019aune du contr\u00f4le de la Commission des Sondages<\/a><\/span><\/span><\/li>\n<\/ul>\n<\/li>\n<\/ul>\n","protected":false},"excerpt":{"rendered":"<p>Introduction\u00a0 En 1993, Donald Rubin invente le terme \u00ab microdonn\u00e9es synth\u00e9tiques \u00bb pour d\u00e9crire comment un jeu de donn\u00e9es contenant des informations sensibles pouvait \u00eatre rendu public. La m\u00e9thode propos\u00e9e par Rubin consiste \u00e0 transformer les donn\u00e9es initiales en de nouvelles donn\u00e9es statistiquement identiques, mais individuellement diff\u00e9rentes. Drechsler et Haensch (2024) en dressent un panorama [&hellip;]<\/p>\n","protected":false},"author":546,"featured_media":9138,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"_et_pb_use_builder":"","_et_pb_old_content":"","_et_gb_content_width":"","_exactmetrics_skip_tracking":false,"_exactmetrics_sitenote_active":false,"_exactmetrics_sitenote_note":"","_exactmetrics_sitenote_category":0,"footnotes":""},"categories":[18],"tags":[],"class_list":["post-9122","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-statistiques","et-has-post-format-content","et_post_format-et-post-format-standard"],"_links":{"self":[{"href":"https:\/\/variances.eu\/index.php?rest_route=\/wp\/v2\/posts\/9122","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/variances.eu\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/variances.eu\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/variances.eu\/index.php?rest_route=\/wp\/v2\/users\/546"}],"replies":[{"embeddable":true,"href":"https:\/\/variances.eu\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=9122"}],"version-history":[{"count":3,"href":"https:\/\/variances.eu\/index.php?rest_route=\/wp\/v2\/posts\/9122\/revisions"}],"predecessor-version":[{"id":9157,"href":"https:\/\/variances.eu\/index.php?rest_route=\/wp\/v2\/posts\/9122\/revisions\/9157"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/variances.eu\/index.php?rest_route=\/wp\/v2\/media\/9138"}],"wp:attachment":[{"href":"https:\/\/variances.eu\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=9122"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/variances.eu\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=9122"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/variances.eu\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=9122"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}