Notes de lecture de l’article :
Sandrine Boulet and Antoine Chambaz, Draw Me a Simulator, Computo (September 2025) https://doi.org/10.57750/w1hj-dw22
L’un des articles récemment publiés dans la revue Computo* en illustre bien l’esprit. Il aborde un thème omniprésent et multiforme dans les applications concrètes, qui se heurtent inévitablement à divers problèmes liés aux données, parmi lesquels : données de mauvaise qualité, nombre d’échantillons insuffisant pour un bon ajustement des modèles statistiques et d’apprentissage, « malédiction de la dimension », difficultés d’accès aux données liées à la confidentialité, à la sécurité et à la réglementation. Face à ces défis, la génération de données simulées (ou synthétiques) apparaît comme une alternative prometteuse, favorisant un partage et une utilisation d’une manière que les données réelles ne permettent pas ou assez mal.
L’approche s’inscrit dans le cadre général de l’apprentissage non supervisé de l’IA générative, capable « d’apprendre » la distribution de probabilité des données observées et de « tirer » à volonté de nouveaux échantillons selon cette loi estimée. Parmi les récentes avancées en Machine Learning c’est l’une des plus impressionnantes, qui permet notamment de produire de façon toujours plus réaliste sons, images et vidéos. Au-delà de ces usages abondamment médiatisés, où prévalent souvent futilité et malhonnêteté, les domaines d’application se multiplient, de même que les outils mathématiques sous-jacents et les architectures déployées.
De l’imaginaire aux simulations informatiques
L’introduction de l’article livre une réflexion culturelle et historique : l’idée de simulation ne naît pas avec l’informatique, mais plonge ses racines dans l’histoire humaine la plus ancienne. La fiction, raconter une histoire, inventer un monde, imaginer un « et si … » relève déjà d’une simulation. Homère, Mary Shelley ou les mythes antiques imaginent des modèles du réel qui condensent, exagèrent ou recomposent des traits de la vie humaine. Chez Aristote la fiction éclaire des vérités universelles en imitant l’action et la vie. D’une certaine façon, la littérature préfigure la modélisation, un des ingrédients majeurs de la démarche scientifique.
Les simulations scientifiques apparaissent dès l’Antiquité, avec des artefacts comme la machine d’Anticythère[1], un simulateur mécanique du ciel. Au XVIIIe siècle, Buffon montre avec son célèbre lancer d’aiguille que l’on peut estimer le nombre avec des expériences probabilistes, prémices de la méthode de Monte-Carlo. Celle-ci naît avec les premiers ordinateurs pendant la Seconde Guerre mondiale, développée par von Neumann, Ulam[2] et Metropolis, faute de pouvoir décrire analytiquement le comportement des neutrons dans une réaction nucléaire. On entre alors dans l’ère des simulations numériques modernes, outils d’investigation désormais incontournables, qu’il s’agisse de tester des hypothèses ou d’explorer des scénarios impossibles ou trop onéreux à reproduire matériellement.
Positionnement de l’étude
Les auteurs adoptent une position probabiliste : simuler revient à produire artificiellement des données tirées d’une loi de probabilité qui imite la loi sous-jacente des données réelles. L’objectif est alors de « dessiner un simulateur[3] », c’est-à-dire concevoir un générateur capable de reproduire fidèlement les propriétés statistiques observées dans les jeux de données disponibles.
Avant l’avènement des réseaux neuronaux, les données tabulaires simulées étaient généralement générées à partir d’une modélisation paramétrique de la loi conjointe de données authentiques et par échantillonnage à partir de celle-ci. Les modèles paramétriques reposent le plus souvent sur des distributions canoniques limitées à des paramètres de faible dimension, en raison de contraintes de calcul et des difficultés d’encodage efficace de grandes classes de fonctions paramétrées.
La problématique envisagée ici est plus précisément celle d’un statisticien intéressé par un processus du monde réel, qui a développé à partir de données collectées un algorithme pour l’apprentissage d’une caractéristique particulière de ce processus, et cherche à en évaluer les performances au moyen de simulations. Il s’agit donc d’abord de concevoir un simulateur pour générer des données synthétiques ressemblant significativement aux données du monde réel. Objectif souvent difficile à atteindre avec les approches classiques comme :
- Les simulateurs paramétriques, manipulables analytiquement mais reposant sur des formes imposées (lois normales, modèles linéaires, etc.), souvent artificielles et trop simples pour capturer la richesse et la complexité du réel.
- Le bootstrapping, qui consiste à rééchantillonner les données observées et par nature reste, à un moment ou un autre, prisonnier de l’échantillon initial.
Comment alors concevoir un simulateur « réaliste » et en quel sens dans ce contexte ? Les auteurs explorent la piste des réseaux de neurones, plus spécifiquement de type Variational Auto-Encoder (VAE), pour apprendre à produire des données synthétiques proches de celles observées et également capables de restituer une structure causale.
Les choix d’architecture (nombre de couches, de neurones, dimension latente) sont présentés, mais sans prétention d’optimalité. D’ailleurs, de façon générale les liens entre architecture et performance des réseaux restent encore au fond peu compris. Dans la plupart des cas, la conception et le choix de l’architecture reposent sur l’intuition et l’expérience du praticien. Le lecteur est donc invité à expérimenter par lui-même. Conformément à l’orientation de la revue, tous les codes (en Python et R, et avec les outils TensorFlow et PyTorch) sont reproduits au fil de l’article et disponibles sur la plateforme GitHub. Les principes des VAE et les détails de l’implémentation sont également exposés.
Expérimentations numériques
Dans un premier temps, une expérimentation est conduite avec des données générées artificiellement selon une loi connue. Pour évaluer ces observations synthétiques et la qualité d’un simulateur, trois critères basés sur la comparaison des propriétés statistiques et des performances prédictives sont utilisés. Même si les observations synthétiques présentent quelques divergences par rapport aux restitutions attendues, dans l’ensemble les différences ne sont pas très importantes.
L’analyse réalisée précédemment est ensuite étendue à des données réelles dans le domaine médical, émanant du Consortium international de pharmacogénétique de la warfarine, un anticoagulant couramment prescrit pour traiter les thromboses et les thromboembolies. Si le simulateur précédent construit à partir de données factices présentait des écarts mineurs, les résultats obtenus avec des données réelles révèlent des déviations beaucoup plus marquées.
Pour reprendre les mots de conclusion des auteurs de l’article, les résultats, bien qu’instructifs, sont quelque peu décevants. En particulier, dans ce contexte l’augmentation de la quantité de données réelles ou de la complexité du réseau n’améliorent pas significativement les performances du simulateur. On peut sans doute y voir la manifestation d’un manque de structures fortes et de riches régularités dans ce type de données ; contrairement à des domaines comme la génération d’images, où abondent les régularités inhérentes aux motifs visuels et où les réseaux neuronaux excellent à capturer des structures significatives. Le papier identifie pour finir les principaux défis et les opportunités de ce domaine émergent, ainsi que de futures pistes de recherche.
Pour approfondir le sujet et les pistes de développement :
Yingzhou Lu, Lulu Chen, Yuanyuan Zhang, Minjie Shen, Huazheng Wang, Xiao Wang, Capucine van Rechem, Tianfan Fu, Wenqi Wei, Machine Learning for Synthetic Data Generation: A Review (2025) arXiv:2302.04062
Mentionnons plus généralement le blog de Lilian Weng, qui aborde de façon très pédagogique des sujets IA souvent ardus. Une ressource de qualité, bienvenue avant la lecture de papiers de recherche.
* Computo est le nom donné par la Société Française de Statistique (SFdS) à une revue en ligne et en langue anglaise qu’elle publie depuis 2022 (lien). L’initiative s’inscrit dans le mouvement de rapprochement entre statistique et apprentissage machine. Elle vise notamment à promouvoir les contributions informatiques et algorithmiques avec illustration numérique de propriétés théoriques, utiles à la compréhension des méthodes et modèles les plus adaptés à une problématique donnée.
La revue est née dans un contexte de crise de reproductibilité scientifique et a adopté une démarche de science ouverte et de transparence des résultats, fondée sur des normes assez strictes en matière de publication. Il est souvent complexe, voire impossible, de reproduire les résultats de recherche, en particulier les expériences numériques. L’évolution des technologies, des codes sources et/ou environnements logiciels partiellement ou totalement indisponibles ou non détaillés, sont couramment à l’origine de difficultés et perte de temps pour la réutilisation de ces résultats. Et source également de questionnement sur leur crédibilité.
La publication est en accès libre, tout le contenu est disponible gratuitement et pratiquement sans restriction pour l’utilisateur.
[1] Voir le film Indiana Jones et le Cadran de la destinée (2023).
[2] Voir L’autobiographie Les Aventures d’un mathématicien (traduction française 2022) et le film (2020) du même nom.
[3] Allusion à l’allégorie du mouton dans Le Petit Prince.
- Notes de lecture : « Dessine-moi un simulateur » - 6 février 2026
- Note de lecture : « Jeux, casse-têtes et mathématiques » de Yves Dutrieux et Hervé Gianella - 31 juillet 2025
- Quand l’économie précédait (peut-être) la physique - 7 avril 2025
Commentaires récents