{"id":8947,"date":"2026-02-06T12:10:12","date_gmt":"2026-02-06T11:10:12","guid":{"rendered":"https:\/\/variances.eu\/?p=8947"},"modified":"2026-02-06T12:10:12","modified_gmt":"2026-02-06T11:10:12","slug":"notes-de-lecture-dessine-moi-un-simulateur","status":"publish","type":"post","link":"https:\/\/variances.eu\/?p=8947","title":{"rendered":"Notes de lecture : \u00ab Dessine-moi un simulateur \u00bb"},"content":{"rendered":"<p><em>Notes de lecture de l\u2019article\u00a0:<\/em><\/p>\n<p>Sandrine Boulet and Antoine Chambaz,\u00a0Draw Me a Simulator,<em> Computo (September 2025)\u00a0<\/em><span style=\"text-decoration: underline;\"><span style=\"color: #0000ff;\"><a style=\"color: #0000ff;\" href=\"https:\/\/doi.org\/10.57750\/w1hj-dw22\"><em>https:\/\/doi.org\/10.57750\/w1hj-dw22<\/em><\/a><\/span><\/span><\/p>\n<hr \/>\n<p>L\u2019un des articles r\u00e9cemment publi\u00e9s dans la revue <em>Computo<\/em>* en illustre bien l\u2019esprit. Il aborde un th\u00e8me omnipr\u00e9sent et multiforme dans les applications concr\u00e8tes, qui se heurtent in\u00e9vitablement \u00e0 divers probl\u00e8mes li\u00e9s aux donn\u00e9es, parmi lesquels\u00a0: donn\u00e9es de mauvaise qualit\u00e9, nombre d\u2019\u00e9chantillons insuffisant pour un bon ajustement des mod\u00e8les statistiques et d&rsquo;apprentissage, \u00ab\u00a0mal\u00e9diction de la dimension\u00a0\u00bb, difficult\u00e9s d&rsquo;acc\u00e8s aux donn\u00e9es li\u00e9es \u00e0 la confidentialit\u00e9, \u00e0 la s\u00e9curit\u00e9 et \u00e0 la r\u00e9glementation. Face \u00e0 ces d\u00e9fis, la g\u00e9n\u00e9ration de donn\u00e9es simul\u00e9es (ou synth\u00e9tiques) appara\u00eet comme une alternative prometteuse, favorisant un partage et une utilisation d&rsquo;une mani\u00e8re que les donn\u00e9es r\u00e9elles ne permettent pas ou assez mal.<\/p>\n<p>L\u2019approche s\u2019inscrit dans le cadre g\u00e9n\u00e9ral de l\u2019apprentissage non supervis\u00e9 de l&rsquo;IA g\u00e9n\u00e9rative, capable \u00ab\u00a0d&rsquo;apprendre\u00a0\u00bb la distribution de probabilit\u00e9 des donn\u00e9es observ\u00e9es et de \u00ab\u00a0tirer\u00a0\u00bb \u00e0 volont\u00e9 de nouveaux \u00e9chantillons selon cette loi estim\u00e9e. Parmi les r\u00e9centes avanc\u00e9es en\u00a0<em>Machine Learning<\/em> c\u2019est l&rsquo;une des plus impressionnantes, qui permet notamment de produire de fa\u00e7on toujours plus r\u00e9aliste sons, images et vid\u00e9os. Au-del\u00e0 de ces usages abondamment m\u00e9diatis\u00e9s, o\u00f9 pr\u00e9valent souvent futilit\u00e9 et malhonn\u00eatet\u00e9, les domaines d\u2019application se multiplient, de m\u00eame que les outils math\u00e9matiques sous-jacents et les architectures d\u00e9ploy\u00e9es.<\/p>\n<h3><strong>De l\u2019imaginaire aux simulations informatiques<\/strong><\/h3>\n<p>L\u2019introduction de l\u2019article livre une r\u00e9flexion culturelle et historique : l\u2019id\u00e9e de simulation ne na\u00eet pas avec l\u2019informatique, mais plonge ses racines dans l\u2019histoire humaine la plus ancienne. La fiction<strong>, <\/strong>raconter une histoire, inventer un monde, imaginer un \u00ab et si \u2026 \u00bb rel\u00e8ve d\u00e9j\u00e0 d\u2019une simulation. Hom\u00e8re, Mary Shelley ou les mythes antiques imaginent des mod\u00e8les du r\u00e9el qui condensent, exag\u00e8rent ou recomposent des traits de la vie humaine. Chez Aristote la fiction \u00e9claire des v\u00e9rit\u00e9s universelles en imitant l\u2019action et la vie. D\u2019une certaine fa\u00e7on, la litt\u00e9rature pr\u00e9figure la mod\u00e9lisation, un des ingr\u00e9dients majeurs de la d\u00e9marche scientifique.<\/p>\n<p>Les simulations scientifiques apparaissent d\u00e8s l\u2019Antiquit\u00e9, avec des artefacts comme la machine d\u2019Anticyth\u00e8re<a href=\"#_ftn1\" name=\"_ftnref1\">[1]<\/a>, un simulateur m\u00e9canique du ciel. Au XVIII<sup>e<\/sup> si\u00e8cle, Buffon montre avec son c\u00e9l\u00e8bre lancer d\u2019aiguille que l\u2019on peut estimer le nombre \u00a0avec des exp\u00e9riences probabilistes, pr\u00e9mices de la m\u00e9thode de Monte-Carlo. Celle-ci na\u00eet avec les premiers ordinateurs pendant la Seconde Guerre mondiale<strong>, <\/strong>d\u00e9velopp\u00e9e par von Neumann, Ulam<a href=\"#_ftn2\" name=\"_ftnref2\">[2]<\/a> et Metropolis, faute de pouvoir d\u00e9crire analytiquement le comportement des neutrons dans une r\u00e9action nucl\u00e9aire. On entre alors dans l\u2019\u00e8re des simulations num\u00e9riques modernes, outils d\u2019investigation d\u00e9sormais incontournables, qu\u2019il s\u2019agisse de tester des hypoth\u00e8ses ou d\u2019explorer des sc\u00e9narios impossibles ou trop on\u00e9reux \u00e0 reproduire mat\u00e9riellement.<\/p>\n<h3><strong>Positionnement de l\u2019\u00e9tude<\/strong><\/h3>\n<p>Les auteurs adoptent une position probabiliste : simuler revient \u00e0 produire artificiellement des donn\u00e9es tir\u00e9es d\u2019une loi de probabilit\u00e9 qui imite la loi sous-jacente des donn\u00e9es r\u00e9elles. L\u2019objectif est alors de \u00ab dessiner un simulateur<a href=\"#_ftn3\" name=\"_ftnref3\">[3]<\/a> \u00bb, c\u2019est-\u00e0-dire concevoir un g\u00e9n\u00e9rateur capable de reproduire fid\u00e8lement les propri\u00e9t\u00e9s statistiques observ\u00e9es dans les jeux de donn\u00e9es disponibles.<\/p>\n<p>Avant l&rsquo;av\u00e8nement des r\u00e9seaux neuronaux, les donn\u00e9es tabulaires simul\u00e9es \u00e9taient g\u00e9n\u00e9ralement g\u00e9n\u00e9r\u00e9es \u00e0 partir d\u2019une mod\u00e9lisation param\u00e9trique de la loi conjointe de donn\u00e9es authentiques et par \u00e9chantillonnage \u00e0 partir de celle-ci. Les mod\u00e8les param\u00e9triques reposent le plus souvent sur des distributions canoniques limit\u00e9es \u00e0 des param\u00e8tres de faible dimension, en raison de contraintes de calcul et des difficult\u00e9s d&rsquo;encodage efficace de grandes classes de fonctions param\u00e9tr\u00e9es.<\/p>\n<p>La probl\u00e9matique envisag\u00e9e ici est plus pr\u00e9cis\u00e9ment celle d\u2019un statisticien int\u00e9ress\u00e9 par un processus du monde r\u00e9el, qui a d\u00e9velopp\u00e9 \u00e0 partir de donn\u00e9es collect\u00e9es un algorithme pour l\u2019apprentissage d\u2019une caract\u00e9ristique particuli\u00e8re de ce processus, et cherche \u00e0 en \u00e9valuer les performances au moyen de simulations. Il s\u2019agit donc d&rsquo;abord de concevoir un simulateur pour g\u00e9n\u00e9rer des donn\u00e9es synth\u00e9tiques ressemblant significativement aux donn\u00e9es du monde r\u00e9el. Objectif souvent difficile \u00e0 atteindre avec les approches classiques comme\u00a0:<\/p>\n<ul>\n<li>Les simulateurs param\u00e9triques, manipulables analytiquement mais reposant sur des formes impos\u00e9es (lois normales, mod\u00e8les lin\u00e9aires, etc.), souvent artificielles et trop simples pour capturer la richesse et la complexit\u00e9 du r\u00e9el.<\/li>\n<li>Le <em>bootstrapping<\/em>, qui consiste \u00e0 r\u00e9\u00e9chantillonner les donn\u00e9es observ\u00e9es et par nature reste, \u00e0 un moment ou un autre, prisonnier de l\u2019\u00e9chantillon initial.<\/li>\n<\/ul>\n<p>Comment alors concevoir un simulateur \u00ab\u00a0r\u00e9aliste\u00a0\u00bb et en quel sens dans ce contexte\u00a0? Les auteurs explorent la piste des r\u00e9seaux de neurones, plus sp\u00e9cifiquement de type <em>Variational Auto-Encoder<\/em> (VAE), pour apprendre \u00e0 produire des donn\u00e9es synth\u00e9tiques proches de celles observ\u00e9es et \u00e9galement capables de restituer une structure causale.<\/p>\n<p>Les choix d\u2019architecture (nombre de couches, de neurones, dimension latente) sont pr\u00e9sent\u00e9s, mais sans pr\u00e9tention d\u2019optimalit\u00e9. D\u2019ailleurs, de fa\u00e7on g\u00e9n\u00e9rale les liens entre architecture et performance des r\u00e9seaux restent encore au fond peu compris. Dans la plupart des cas, la conception et le choix de l&rsquo;architecture reposent sur l&rsquo;intuition et l\u2019exp\u00e9rience du praticien. Le lecteur est donc invit\u00e9 \u00e0 exp\u00e9rimenter par lui-m\u00eame. Conform\u00e9ment \u00e0 l\u2019orientation de la revue, tous les codes (en <em>Python<\/em> et <em>R<\/em>, et avec les outils <em>TensorFlow<\/em> et <em>PyTorch<\/em>) sont reproduits au fil de l\u2019article et disponibles sur la plateforme GitHub. Les principes des VAE et les d\u00e9tails de l\u2019impl\u00e9mentation sont \u00e9galement expos\u00e9s.<\/p>\n<h3><strong>Exp\u00e9rimentations num\u00e9riques<\/strong><\/h3>\n<p>Dans un premier temps, une exp\u00e9rimentation est conduite avec des donn\u00e9es g\u00e9n\u00e9r\u00e9es artificiellement selon une loi connue. Pour \u00e9valuer ces observations synth\u00e9tiques et la qualit\u00e9 d&rsquo;un simulateur, trois crit\u00e8res bas\u00e9s sur la comparaison des propri\u00e9t\u00e9s statistiques et des performances pr\u00e9dictives sont utilis\u00e9s. M\u00eame si les observations synth\u00e9tiques pr\u00e9sentent quelques divergences par rapport aux restitutions attendues, dans l\u2019ensemble les diff\u00e9rences ne sont pas tr\u00e8s importantes.<\/p>\n<p>L&rsquo;analyse r\u00e9alis\u00e9e pr\u00e9c\u00e9demment est ensuite \u00e9tendue \u00e0 des donn\u00e9es r\u00e9elles dans le domaine m\u00e9dical, \u00e9manant du Consortium international de pharmacog\u00e9n\u00e9tique de la warfarine, un anticoagulant couramment prescrit pour traiter les thromboses et les thromboembolies. Si le simulateur pr\u00e9c\u00e9dent construit \u00e0 partir de donn\u00e9es factices pr\u00e9sentait des \u00e9carts mineurs, les r\u00e9sultats obtenus avec des donn\u00e9es r\u00e9elles r\u00e9v\u00e8lent des d\u00e9viations beaucoup plus marqu\u00e9es.<\/p>\n<p>Pour reprendre les mots de conclusion des auteurs de l\u2019article, les r\u00e9sultats, bien qu&rsquo;instructifs, sont quelque peu d\u00e9cevants. En particulier, dans ce contexte l&rsquo;augmentation de la quantit\u00e9 de donn\u00e9es r\u00e9elles ou de la complexit\u00e9 du r\u00e9seau n&rsquo;am\u00e9liorent pas significativement les performances du simulateur. On peut sans doute y voir la manifestation d\u2019un manque de structures fortes et de riches r\u00e9gularit\u00e9s dans ce type de donn\u00e9es\u00a0; contrairement \u00e0 des domaines comme la g\u00e9n\u00e9ration d&rsquo;images, o\u00f9 abondent les r\u00e9gularit\u00e9s inh\u00e9rentes aux motifs visuels et o\u00f9 les r\u00e9seaux neuronaux excellent \u00e0 capturer des structures significatives. Le papier identifie pour finir les principaux d\u00e9fis et les opportunit\u00e9s de ce domaine \u00e9mergent, ainsi que de futures pistes de recherche.<\/p>\n<p><em>Pour approfondir le sujet\u00a0et les pistes de d\u00e9veloppement :<\/em><\/p>\n<p><a href=\"https:\/\/arxiv.org\/search\/cs?searchtype=author&amp;query=Lu,+Y\"><span style=\"text-decoration: underline;\"><span style=\"color: #0000ff; text-decoration: underline;\">Yingzhou Lu<\/span><\/span><\/a>,\u00a0<span style=\"text-decoration: underline;\"><span style=\"color: #0000ff;\"><a style=\"color: #0000ff; text-decoration: underline;\" href=\"https:\/\/arxiv.org\/search\/cs?searchtype=author&amp;query=Chen,+L\">Lulu Chen<\/a><\/span><\/span>,\u00a0<span style=\"text-decoration: underline;\"><span style=\"color: #0000ff;\"><a style=\"color: #0000ff; text-decoration: underline;\" href=\"https:\/\/arxiv.org\/search\/cs?searchtype=author&amp;query=Zhang,+Y\">Yuanyuan Zhang<\/a><\/span><\/span>,\u00a0<span style=\"text-decoration: underline;\"><span style=\"color: #0000ff;\"><a style=\"color: #0000ff; text-decoration: underline;\" href=\"https:\/\/arxiv.org\/search\/cs?searchtype=author&amp;query=Shen,+M\">Minjie Shen<\/a><\/span><\/span>,\u00a0<span style=\"text-decoration: underline;\"><span style=\"color: #0000ff;\"><a style=\"color: #0000ff; text-decoration: underline;\" href=\"https:\/\/arxiv.org\/search\/cs?searchtype=author&amp;query=Wang,+H\">Huazheng Wang<\/a><\/span><\/span>,\u00a0<span style=\"text-decoration: underline; color: #0000ff;\"><a style=\"color: #0000ff; text-decoration: underline;\" href=\"https:\/\/arxiv.org\/search\/cs?searchtype=author&amp;query=Wang,+X\">Xiao Wang<\/a><\/span>,\u00a0<span style=\"text-decoration: underline; color: #0000ff;\"><a style=\"color: #0000ff; text-decoration: underline;\" href=\"https:\/\/arxiv.org\/search\/cs?searchtype=author&amp;query=van+Rechem,+C\">Capucine van Rechem<\/a><\/span>,\u00a0<span style=\"text-decoration: underline;\"><span style=\"color: #0000ff;\"><a style=\"color: #0000ff; text-decoration: underline;\" href=\"https:\/\/arxiv.org\/search\/cs?searchtype=author&amp;query=Fu,+T\">Tianfan Fu<\/a><\/span><\/span>,\u00a0<span style=\"text-decoration: underline;\"><span style=\"color: #0000ff;\"><a style=\"color: #0000ff; text-decoration: underline;\" href=\"https:\/\/arxiv.org\/search\/cs?searchtype=author&amp;query=Wei,+W\">Wenqi Wei<\/a><\/span><\/span><em>,\u00a0<\/em>Machine Learning for Synthetic Data Generation: A Review\u00a0(2025) <span style=\"text-decoration: underline;\"><span style=\"color: #0000ff;\"><a style=\"color: #0000ff;\" href=\"https:\/\/arxiv.org\/abs\/2302.04062\"><em>arXiv:2302.04062<\/em><\/a><\/span><\/span><strong><em>\u00a0<\/em><\/strong><\/p>\n<p>Mentionnons plus g\u00e9n\u00e9ralement le <span style=\"text-decoration: underline; color: #0000ff;\"><a style=\"color: #0000ff; text-decoration: underline;\" href=\"https:\/\/lilianweng.github.io\/\">blog<\/a><\/span> de Lilian Weng, qui aborde de fa\u00e7on tr\u00e8s p\u00e9dagogique des sujets IA souvent ardus. Une ressource de qualit\u00e9, bienvenue avant la lecture de papiers de recherche.<\/p>\n<p>&nbsp;<\/p>\n<p>*<em> Computo<\/em> est le nom donn\u00e9 par la Soci\u00e9t\u00e9 Fran\u00e7aise de Statistique (SFdS) \u00e0 une revue en ligne et en langue anglaise qu\u2019elle publie depuis 2022 (<span style=\"text-decoration: underline;\"><span style=\"color: #0000ff;\"><a style=\"color: #0000ff; text-decoration: underline;\" href=\"https:\/\/computo-journal.org\/\">lien<\/a><\/span><\/span>). L\u2019initiative s\u2019inscrit dans le mouvement de rapprochement entre statistique et apprentissage machine. Elle vise notamment \u00e0 promouvoir les contributions informatiques et algorithmiques avec illustration num\u00e9rique de propri\u00e9t\u00e9s th\u00e9oriques, utiles \u00e0 la compr\u00e9hension des m\u00e9thodes et mod\u00e8les les plus adapt\u00e9s \u00e0 une probl\u00e9matique donn\u00e9e.<\/p>\n<p>La revue est n\u00e9e dans un contexte de crise de reproductibilit\u00e9 scientifique et a adopt\u00e9 une d\u00e9marche de science ouverte et de transparence des r\u00e9sultats, fond\u00e9e sur des normes assez strictes en mati\u00e8re de publication. Il est souvent complexe, voire impossible, de reproduire les r\u00e9sultats de recherche, en particulier les exp\u00e9riences num\u00e9riques. L\u2019\u00e9volution des technologies, des codes sources et\/ou environnements logiciels partiellement ou totalement indisponibles ou non d\u00e9taill\u00e9s, sont couramment \u00e0 l\u2019origine de difficult\u00e9s et perte de temps pour la r\u00e9utilisation de ces r\u00e9sultats. Et source \u00e9galement de questionnement sur leur cr\u00e9dibilit\u00e9.<\/p>\n<p>La publication est en acc\u00e8s libre, tout le contenu est disponible gratuitement et pratiquement sans restriction pour l\u2019utilisateur.<\/p>\n<hr \/>\n<p><a href=\"#_ftnref1\" name=\"_ftn1\">[1]<\/a> Voir le film <em>Indiana Jones et le Cadran de la destin\u00e9e <\/em>(2023).<\/p>\n<p><a href=\"#_ftnref2\" name=\"_ftn2\">[2]<\/a> Voir L\u2019autobiographie <em>Les Aventures d&rsquo;un math\u00e9maticien<\/em> (traduction fran\u00e7aise 2022) et le film (2020) du m\u00eame nom.<\/p>\n<p><a href=\"#_ftnref3\" name=\"_ftn3\">[3]<\/a> Allusion \u00e0 l\u2019all\u00e9gorie du mouton dans <em>Le Petit Prince<\/em>.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Notes de lecture de l\u2019article\u00a0: Sandrine Boulet and Antoine Chambaz,\u00a0Draw Me a Simulator, Computo (September 2025)\u00a0https:\/\/doi.org\/10.57750\/w1hj-dw22 L\u2019un des articles r\u00e9cemment publi\u00e9s dans la revue Computo* en illustre bien l\u2019esprit. Il aborde un th\u00e8me omnipr\u00e9sent et multiforme dans les applications concr\u00e8tes, qui se heurtent in\u00e9vitablement \u00e0 divers probl\u00e8mes li\u00e9s aux donn\u00e9es, parmi lesquels\u00a0: donn\u00e9es de mauvaise [&hellip;]<\/p>\n","protected":false},"author":401,"featured_media":8950,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"_et_pb_use_builder":"","_et_pb_old_content":"","_et_gb_content_width":"","_exactmetrics_skip_tracking":false,"_exactmetrics_sitenote_active":false,"_exactmetrics_sitenote_note":"","_exactmetrics_sitenote_category":0,"footnotes":""},"categories":[251],"tags":[],"class_list":["post-8947","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-notes-de-lecture","et-has-post-format-content","et_post_format-et-post-format-standard"],"_links":{"self":[{"href":"https:\/\/variances.eu\/index.php?rest_route=\/wp\/v2\/posts\/8947","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/variances.eu\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/variances.eu\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/variances.eu\/index.php?rest_route=\/wp\/v2\/users\/401"}],"replies":[{"embeddable":true,"href":"https:\/\/variances.eu\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=8947"}],"version-history":[{"count":1,"href":"https:\/\/variances.eu\/index.php?rest_route=\/wp\/v2\/posts\/8947\/revisions"}],"predecessor-version":[{"id":8948,"href":"https:\/\/variances.eu\/index.php?rest_route=\/wp\/v2\/posts\/8947\/revisions\/8948"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/variances.eu\/index.php?rest_route=\/wp\/v2\/media\/8950"}],"wp:attachment":[{"href":"https:\/\/variances.eu\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=8947"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/variances.eu\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=8947"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/variances.eu\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=8947"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}