Introduction 

En 1993, Donald Rubin invente le terme « microdonnées synthétiques » pour décrire comment un jeu de données contenant des informations sensibles pouvait être rendu public. La méthode proposée par Rubin consiste à transformer les données initiales en de nouvelles données statistiquement identiques, mais individuellement différentes. Drechsler et Haensch (2024) en dressent un panorama actuel.

L’idée de modéliser des données pour améliorer le fichier d’origine est bien antérieure à l’article de Rubin. Hansen, Hurwitz et Madow (1953) décrivent des méthodes d’imputation de type hot deck (le terme lui-même apparaît après la publication de cet ouvrage). Fellegi et Sunter (1959) posent les bases du rapprochement probabiliste entre fichiers, menant aux fusions.

Une différence essentielle entre ces méthodes de fusion, injection ou imputation et l’article fondateur de Rubin est que les individus synthétiques de ce dernier sont entièrement nouveaux. Dans le premier cas, les moyennes et covariances sont en grande partie observées sur données réelles. Dans le deuxième, tout résulte d’une modélisation statistique.

Avec l’apparition récente de l’intelligence artificielle générative, la notion a gagné en popularité. Selon Google Trends, le nombre de recherches sur « données synthétiques » a été multiplié par quatre entre janvier 2022 et janvier 2025. Les données synthétiques ne sont maintenant plus seulement quantitatives : on peut générer des verbatim, des images, ou interroger des répondants synthétiques.

Dans une première section de cet article, nous passons en revue les différents cas d’usage de données synthétiques mentionnés dans la littérature sur le sujet. Puis nous en discutons les avantages et inconvénients.

Les cas d’usage des données synthétiques

Les données synthétiques désignent des données artificiellement générées à partir de modèles statistiques ou d’apprentissage automatique, visant à reproduire les propriétés des données réelles. Dans la suite des travaux de Rubin, il s’agit de reproduire ces données sans en révéler les informations sensibles (Jordon et al., 2022 ; Raghunathan, 2021). L’essor des données synthétiques s’accompagne d’une diversification rapide des domaines d’application.

Santé et biomédecine

Le domaine médical est l’un des terrains d’application les plus avancés. Les données de santé étant fortement sensibles et réglementées, les données synthétiques offrent une alternative stratégique pour entraîner des modèles de machine learning sans exposer les données des patients, partager des bases de données entre institutions et tester des hypothèses cliniques.

Chen et al. (2021) montrent que les données synthétiques – par exemple, l’imagerie médicale de lésions cancéreuses – peuvent atteindre un niveau de performance comparable aux données réelles pour certaines tâches (diagnostic assisté, prédiction). Les auteurs mettent toutefois en garde sur les risques persistants de violation de la vie privée, appelant les régulateurs à se saisir du sujet. De même, Hernandez et al. (2022), à partir d’une revue systématique de la littérature entre 2016 et 2021, soulignent leur utilisation croissante dans les dossiers médicaux électroniques.

Simulations de politiques publiques

Les données synthétiques sont largement mobilisées pour construire des populations artificielles permettant de simuler des politiques publiques. Hradec et al. (2022) montrent que ces approches permettent de modéliser des dynamiques démographiques, d’évaluer l’impact de politiques fiscales, sanitaires ou urbaines, de combler les lacunes des données administratives.

L’intérêt principal réside dans la réalisation de simulations de politiques publiques. Hradec et al. (2022) montrent ainsi comment modéliser l’impact de la levée du confinement post pandémie à partir des données de l’Insee, en particulier le fichier des données individuelles du recensement. Selon eux, peu d’instituts nationaux sont capables de fournir les données granulaires nécessaires à cette modélisation à l’échelle de la totalité d’un pays.

Données d’enquêtes

Dans le domaine des données d’enquête, une utilisation prometteuse des données synthétiques consiste à estimer le profil d’une population à un niveau local, lorsque ce profil n’est connu qu’à un niveau plus global. L’intérêt des données synthétiques vient alors du fait qu’il serait impossible de collecter à un coût raisonnable les données requises au niveau local. Par exemple :

  • C onnaître le profil des clients des points de vente de presse pour les cibler avec de la publicité sur le point de vente. Collecter des données sur les clients de tous les points de vente est impossible. Il est en revanche possible de générer des données synthétiques à partir d’enquêtes globales sur l’audience de la presse, fournissant la structure socio-démographique – et bien plus – de la population des acheteurs primaires. Connaissant les ventes d’un point de vente pour chaque publication, on peut reconstituer les caractéristiques de sa clientèle et générer un jeu de données synthétiques.
  • La mesure d’audience de l’affichage réalisée par Mobimétrie et l’institut Ipsos-BVA repose sur la génération des données synthétiques, de manière similaire à ce qui est décrit dans Hradec et al. (2022).

Plus récemment, certains instituts d’études de marché ont proposé d’utiliser les données synthétiques pour renforcer les échantillons : l’idée serait qu’ajouter des données créées de manière synthétique à des données collectées permettrait de gagner en précision, et ainsi de résoudre les problèmes liés aux échantillons de taille faible. Cette voie d’utilisation des données synthétiques semble cependant peu prometteuse, du fait de leur corrélation avec les données initiales.

Un des développements récents les plus marquants concerne l’utilisation de données synthétiques pour simuler des répondants dans des enquêtes.

Les Large Language Models (LLM) aident à générer des “répondants synthétiques”, capables de répondre à des questionnaires ou de simuler des comportements consommateurs (Sarstedt et al., 2024 ; Viglia et al., 2024). Cela ouvre plusieurs perspectives : réduction des coûts d’enquête, tests rapides de concepts ou campagnes, accès à des populations difficiles à atteindre. Sarstedt et al. (2024) recommandent d’utiliser les répondants synthétiques uniquement en amont d’une étude quantitative, à titre de pilote. En dehors de cela, un échantillon benchmark de répondants réels leur semble indispensable.

Une expérimentation à grande échelle sur des répondants synthétiques est décrite par Peng et al. (2025). A partir d’un échantillon de 2 000 répondants à 500 questions, ils créent 2 000 jumeaux numériques. Ils comparent ensuite les réponses de ces deux groupes à 19 enquêtes sur des sujets variés (opinions politiques, consommation de différents produits, perceptions de marques, ….), donc en particulier à des questions nouvelles, non incluses dans les 500 initiales. Deux conclusions fortes en émergent :

  • Tout d’abord, la corrélation entre les réponses des jumeaux numériques et celles des vrais individus dépend beaucoup du contexte. En particulier, elle est faible pour les opinions politiques.
  • Ensuite, les jumeaux numériques sont « hyper-rationnels ». Les auteurs conseillent de les considérer plutôt comme des consultants bien informés que comme des clones des répondants humains.

Bisbee et al. (2024) et Shrestha et al. (2024) sont critiques sur ces développements. D’après eux, les répondants synthétiques reproduisent des réponses stéréotypées et peu diversifiées. En outre, en matière d’opinion, les données synthétiques ne peuvent actuellement remplacer les panels faute de modèle explicatif des tendances.

Machine learning et data augmentation

Un cas de « data augmentation », plus intéressant que celui mentionné au paragraphe précédent sur le renforcement de petits échantillons dans les enquêtes, concerne les données non structurées. Dans des contextes comme la vision par ordinateur ou les systèmes autonomes (Serbouh Touazi et al., 2025), les données synthétiques permettent de générer des scénarios difficiles à observer (situations dangereuses, événements rares). Dans le même esprit, pour des données d’imagerie médicale disponibles en petit nombre, Chadebec et al. (2022) montrent l’intérêt de générer des images synthétiques pour améliorer le diagnostic.

L’algorithme de suréchantillonnage SMOTE (Synthetic Minority Oversampling Technique) est souvent utilisé pour augmenter la taille du groupe minoritaire dans des données fortement déséquilibrées comme en détection de fraude. SMOTE crée de nouvelles données par interpolation linéaire entre voisins du groupe minoritaire. Idwan et al. (2025) ainsi que Song et Liu (2024) sont des références pertinentes.

Les données synthétiques sont-elles solubles dans la statistique ?

Synthèse de données et simulation

Comme on l’a vu, l’idée sous-jacente aux données synthétiques n’est pas récente et s’inscrit dans une tradition bien établie. A bien y réfléchir, est-ce si différent de la simulation des phénomènes aléatoires introduite dans les années 1940 ? On étudiait ainsi le comportement de modèles trop complexes pour avoir des solutions analytiques.

Tout comme les méthodes de Monte Carlo, les propriétés des données synthétiques reposent sur la bonne adéquation du modèle sous-jacent à la réalité. On peut donc affirmer qu’il n’y a pas de données synthétiques sans un modèle.

Explicabilité et biais

Un problème majeur est que les modèles utilisés pour créer des données synthétiques au sens de cet article sont des modèles d’IA, des boîtes noires la plupart du temps, dépendant d’un nombre colossal de paramètres. Faire confiance à des modèles que l’on ne comprend pas n’est pas toujours un obstacle : dans la vie quotidienne, nous utilisons de nombreux dispositifs dont nous ignorons le fonctionnement détaillé, mais qui remplissent leur fonction de manière fiable. Dans des domaines sensibles, l’explicabilité, à défaut de l’interprétabilité, devient une exigence.

Les modèles d’IA, qu’ils soient ou non supervisés, reposent sur des données d’apprentissage avec leurs qualités et leurs défauts. Par construction les données synthétiques vont ressembler aux données d’entraînement, présenter les mêmes biais, voire les amplifier. On peut ainsi aboutir à des décisions erronées, peut-être même injustes, en augmentant artificiellement les données d’une catégorie sous-représentée (par exemple en matière de recrutement ou d’octroi de crédit).

Remarquons que l’on exige souvent des propriétés contradictoires des données synthétiques. On veut à la fois qu’elles ressemblent aux données d’apprentissage et qu’elles en soient suffisamment différentes pour que le modèle puisse « généraliser » : c’est-à-dire non seulement obtenir de bons résultats sur ses données d’entraînement, mais aussi sur des données que le modèle n’a jamais vues auparavant (Jordon et al., 2022).

Les données synthétiques peuvent également être trop « propres », insuffisamment bruitées pour refléter la complexité du monde réel, ce qui peut induire une confiance excessive dans leur utilisation.

Taille fictive ou taille effective ?

Dans un échantillon fortement déséquilibré (par exemple dans le cas de la détection de fraude où nombre de modèles s’avèrent peu robustes ni efficaces en termes de faux positifs), il est d’autant plus tentant d’augmenter les catégories rares par des données synthétiques que c’est facile à faire. On peut doubler l’effectif d’une catégorie en passant par exemple de 300 à 600 observations. Mais puisque l’on peut créer de façon illimitée des données synthétiques pourquoi ne pas en ajouter 3000, et même des milliers ou des millions pour améliorer l’inférence ? On conçoit aisément que cela est absurde et que l’on ne crée pas d’information nouvelle.

Si on reste raisonnable en complétant par exemple cet échantillon de 300 observations par 150 observations synthétiques, on aimerait pouvoir calculer des intervalles de confiance plus étroits ou faire des tests plus puissants. Peut-on considérer que l’échantillon a maintenant 450 observations ou plutôt une taille comprise entre 300 et 450 que l’on appelle l’ESS (effective sample size) ?

La réponse n’est ni simple, ni unique car il existe différentes approches ; elle repose sur le fait, non trivial, que les données synthétiques ne sont pas indépendantes entre elles et ne constituent pas un échantillon iid (indépendant et identiquement distribué). En effet, même si elles sont tirées indépendamment dans le modèle sous-jacent, elles ne sont que conditionnellement indépendantes, car le modèle a été entraîné sur les mêmes données. Raab et al, (2006) et Decruyenaere et al. (2023) montrent sous certaines hypothèses qu’ajouter M observations synthétiques non indépendantes à N observations d’apprentissage indépendantes est équivalent à ajouter observations iid. D’autres approches sont basées sur une analogie avec des données spatialement corrélées.

Jusqu’où aller ?

Des études récentes (Bertrand et al., 2023 ; Shumaylov et al., 2024) ont attiré l’attention sur le phénomène d’effondrement des modèles (model collapse) qui survient quand les données d’entraînement d’un modèle d’IA sont alimentées par des données synthétiques qui, elles- mêmes, vont servir à produire de nouvelles données synthétiques etc. Cette pollution entraîne une dégradation progressive de la qualité et de la diversité des données produites.

Conclusion

Au-delà de l’effet de mode, qui est réel, que retenir sur les données synthétiques ? Les cas d’usage mentionnés dans cet article permettent de tirer quelques conclusions :

  • Les données synthétiques sont utiles dans des applications bien identifiées. Par exemple, quand il s’agit de données d’enquête, quand la collecte aurait un tel coût qu’on ne pourrait pas la mettre en œuvre.
  • A ce stade, il semble impossible de se passer de données réelles. Les données synthétiques sont un complément.
  • Les deux dimensions de base qui permettent de juger de la qualité statistique (biais, précision) sont toujours pertinentes. Les statisticiens ont un rôle prééminent à jouer dans l’adoption de ce type de techniques.

Références

Bertrand, Q., Bose, A. J., Duplessis, A., Jiralerspong, M., & Gidel, G. (2023). On the stability of iterative retraining of generative models on their own data. arXiv preprint arXiv:2310.00429.

Bisbee, J., Clinton, J. D., Dorff, C., Kenkel, B., & Larson, J. M. (2024). Synthetic replacements for human survey data? The perils of large language models. Political Analysis, 32(4), 401-416.

Chadebec, C., Thibeau-Sutre, E., Burgos, N., & Allassonnière, S. (2022). Data augmentation in high dimensional low sample size setting using a geometry-based variational autoencoder. IEEE Transactions on Pattern Analysis and Machine Intelligence, 45(3), 2879-2896.

Chen, R. J., Lu, M. Y., Chen, T. Y., Williamson, D. F., & Mahmood, F. (2021). Synthetic data in machine learning for medicine and healthcare. Nature Biomedical Engineering, 5(6), 493-497.

Decruyenaere, A., Dehaene, H., Rabaey, P., Polet, C., Decruyenaere, J., Vansteelandt, S., & Demeester, T. (2023). Synthetic Data: Can We Trust Statistical Estimators?. In Deep Generative Models for Health Workshop NeurIPS 2023.

Drechsler, J., & Haensch, A. C. (2024). 30 years of synthetic data. Statistical Science, 39(2), 221-242.

Fellegi, I. P. & Sunter, A. B. (1969). A theory for record linkage. Journal of the American Statistical Association, 64(328), 1183-1210.

Hansen, M.H., Hurwitz, W.N. & Madow, W.G. (1953). Sample Survey Methods And Theory. Wiley

Hernandez, M., Epelde, G., Alberdi, A., Cilla, R., & Rankin, D. (2022). Synthetic data generation for tabular health records: A systematic review. Neurocomputing, 493, 28-45.

Hradec, J., Craglia, M., Di Leo, M., de Nigris, S., Ostlaender, N., & Nicholson, N. (2022). Multipurpose synthetic population for policy applications (No. JRC128595). Joint Research Centre.

Idwan, S., Etaiwi, W., Rafayia, H., & Matar, I. (2025). A comprehensive review of statistical variants and enhancements of SMOTE oversampling method. International Journal of Data Science and Analytics, 20(8), 6887-6904.

Jiang, Y., Liang, S., & Choi, J. (2025, July). Synthetic Survey Data Generation and Evaluation. In Proceedings of the 31st ACM SIGKDD Conference on Knowledge Discovery and Data Mining V. 1 (pp. 2292-2302).

Jordon, J., Szpruch, L., Houssiau, F., Bottarelli, M., Cherubin, G., Maple, C., … & Weller, A. (2022). Synthetic Data–what, why and how?. arXiv preprint arXiv:2205.03257.

Joshi, I., Grimmer, M., Rathgeb, C., Busch, C., Bremond, F., & Dantcheva, A. (2024). Synthetic data in human analysis: A survey. IEEE Transactions on Pattern Analysis and Machine Intelligence, 46(7), 4957-4976.

Lu, Y., Chen, L., Zhang, Y., Shen, M., Wang, H., Wang, X., … & Wei, W. (2023). Machine learning for synthetic data generation: a review. arXiv preprint arXiv:2302.04062.

Peng, T., Gui, G., Merlau, D. J., Fan, G. J., Sliman, M. B., Brucks, M., … & Toubia, O. (2025). A mega-study of digital twins reveals strengths, weaknesses and opportunities for further improvement. arXiv preprint arXiv:2509.19088.

Raab, G. M., Nowok, B., & Dibben, C. (2016). Practical data synthesis for large samples. Journal of Privacy and Confidentiality, 7(3), 67-97.

Raghunathan, T. E. (2021). Synthetic data. Annual review of statistics and its application, 8(1), 129-140.

Rubin, D.B. (1993) : Statistical Disclosure Limitation. Journal of Official Statistics, vol. 9, n°2, 461-468.

Sarstedt, M., Adler, S. J., Rau, L., & Schmitt, B. (2024). Using large language models to generate silicon samples in consumer and marketing research: Challenges, opportunities, and guidelines. Psychology & Marketing, 41(6), 1254-1270.

Serbouh Touazi, C., Ahriz, I., Niang, N., & Piperno, A. (2025). Comparative Analysis of SMOTE and ROSE Oversampling Techniques for kNN-Based Autonomous Vehicle Behavior Modeling. Journal of Communications Software and Systems, 21(2), 132-143.

Shrestha, P., Krpan, D., Koaik, F., Schnider, R., Sayess, D., & Binbaz, M. S. (2024). Beyond WEIRD: Can synthetic survey participants substitute for humans in global policy research?. Behavioral Science & Policy, 10(2), 26-45.

Shumailov, I., Shumaylov, Z., Zhao, Y., Papernot, N., Anderson, R., & Gal, Y. (2024). AI models collapse when trained on recursively generated data. Nature, 631(8022), 755-759.

Song, J., & Liu, J. (2024). Ismote: a more accurate alternative for smote. Neural Processing Letters, 56(5), 240.

Viglia, G., Adler, S. J., Miltgen, C. L., & Sarstedt, M. (2024). The use of synthetic data in tourism. Annals of Tourism Research, 108, 103819.

Quelques sites web

https://en.wikipedia.org/wiki/Synthetic_data

https://static-webmail.mediametrie.com/Livre+blanc+Hybride+et+IA/FR/Mediametrie+Livre+Blanc+Hybride+et+IA.pdf

https://syntec-conseil.fr/wp-content/uploads/2025/06/Donnees-synthetiques-et-etudes-marketing-opinion.pdf

https://www.gartner.com/en/newsroom/press-releases/2022-06-22-is-synthetic-data-the-future-of-ai

https://www.lemagit.fr/conseil/Donnees-synthetiques-ou-reelles-quel-choix-pour-lanalytique-predictive

https://www.ibm.com/think/topics/synthetic-data

https://aws.amazon.com/fr/what-is/synthetic-data/


 

Dossier Statistiques – Sommaire :
Antoine Moreau & Gilbert Saporta
Les derniers articles par Antoine Moreau & Gilbert Saporta (tout voir)