{"id":6697,"date":"2022-05-23T07:08:55","date_gmt":"2022-05-23T05:08:55","guid":{"rendered":"https:\/\/variances.eu\/?p=6697"},"modified":"2022-05-23T07:09:16","modified_gmt":"2022-05-23T05:09:16","slug":"a-la-croisee-du-deep-learning-et-des-modeles-physiques-en-quete-de-simulation-moins-gourmande-et-plus-transparente","status":"publish","type":"post","link":"https:\/\/variances.eu\/?p=6697","title":{"rendered":"\u00c0 la crois\u00e9e du Deep Learning et des mod\u00e8les physiques : en qu\u00eate de simulation moins gourmande et plus transparente"},"content":{"rendered":"<p><em>Apr\u00e8<\/em><em>s un Mast<\/em><em>\u00e8<\/em><em>re Sp<\/em><em>\u00e9cialis\u00e9 <\/em><em>en Data Science <\/em><em>\u00e0 l\u2019ENSAE, Caroline Boudier a effectu\u00e9 son stage de fin d\u2019\u00e9tudes \u00e0 la Direction des Applications Militaires du CEA. Dans cet article, elle r\u00e9sume ces quelques mois d\u2019exploration autour de l\u2019application d\u2019un mod\u00e8le innovant de Deep Learning (les R\u00e9seaux de Neurones Inversibles) \u00e0 la simulation des syst\u00e8mes physiques r\u00e9gis par des lois \u00e9nerg\u00e9tiques. <\/em><\/p>\n<h3>Introduction\u00a0: principe et enjeux de la simulation<\/h3>\n<p>En physique, la simulation num\u00e9rique est un outil important qui permet d\u2019analyser, de comprendre et de pr\u00e9dire le comportement et l\u2019\u00e9volution de syst\u00e8mes \u00e0 diff\u00e9rentes \u00e9chelles. Depuis le trait\u00e9 d\u2019interdiction compl\u00e8te des essais nucl\u00e9aires (1996), elle est \u00e9galement devenue un pilier crucial de la strat\u00e9gie de dissuasion fran\u00e7aise.<\/p>\n<p>Si l\u2019approche existe depuis bien longtemps, ses principaux d\u00e9fis n\u2019ont pas chang\u00e9 : pr\u00e9cision de la mod\u00e9lisation et r\u00e9duction du temps de calcul.<\/p>\n<p>Dans le champ de la physique, les m\u00e9thodes classiques &#8211; dites it\u00e9ratives &#8211; sont largement utilis\u00e9es afin de mod\u00e9liser l\u2019\u00e9volution dynamique de syst\u00e8mes. Mais elles montrent bien souvent leurs limites : un besoin important en ressources de calcul qui peut devenir prohibitif.<\/p>\n<p>Face \u00e0 ce d\u00e9fi, l\u2019Intelligence Artificielle est une piste int\u00e9ressante pour mettre en place des mod\u00e8les moins gourmands en ressources. Mais comment faire en sorte que le gain en efficacit\u00e9 ne s\u2019accompagne pas d\u2019une opacit\u00e9 accrue de mod\u00e8les \u00ab\u00a0bo\u00eetes noires\u201d peu interpr\u00e9tables et explicables ?<\/p>\n<p>Dans le cas des syst\u00e8mes r\u00e9gis par des lois \u00e9nerg\u00e9tiques, les R\u00e9seaux de Neurones Inversibles pourraient bien apporter une premi\u00e8re solution, comme le d\u00e9crit cet article.<\/p>\n<h3>La simulation appliqu\u00e9e aux syst\u00e8mes r\u00e9gis par des lois \u00e9nerg\u00e9tiques<\/h3>\n<p>Les applications de la simulation en physique sont nombreuses. On y a recours lorsque les simples \u00e9quations physiques ne permettent pas de totalement appr\u00e9hender un ph\u00e9nom\u00e8ne du fait de sa complexit\u00e9. \u00c0 partir d\u2019hypoth\u00e8ses, on lance alors une simulation : un mod\u00e8le dit \u201cg\u00e9n\u00e9ratif\u201d produit des \u00e9chantillons qui correspondent \u00e0 des configurations du syst\u00e8me. \u00c0 partir de ces configurations il est possible de d\u00e9river des propri\u00e9t\u00e9s cl\u00e9s du syst\u00e8me.<\/p>\n<p>Pour prendre un exemple plus parlant, <span style=\"text-decoration: underline;\"><span style=\"color: #0000ff;\"><a style=\"color: #0000ff; text-decoration: underline;\" href=\"https:\/\/arxiv.org\/abs\/1812.01729\">No\u00e9 et al<\/a><\/span><\/span> [2] s&rsquo;int\u00e9ressent aux prot\u00e9ines : des structures complexes qui peuvent adopter une grande vari\u00e9t\u00e9 de configurations diff\u00e9rentes. Chacune de ces configurations est associ\u00e9e \u00e0 une probabilit\u00e9 d&rsquo;apparition. L\u2019objectif de la simulation est de g\u00e9n\u00e9rer des \u00e9chantillons repr\u00e9sentatifs de cette distribution. Or les prot\u00e9ines ont tendance \u00e0 rester infiniment longtemps dans certaines configurations plus stables que d&rsquo;autres (configurations \u00ab\u00a0<em>pli\u00e9es<\/em>\u00a0\u00bb ou \u00ab\u00a0<em>d\u00e9pli\u00e9es<\/em>\u00ab\u00a0). La distribution est d\u00e9s\u00e9quilibr\u00e9e et les \u00e9v\u00e9nements de transition (d\u00e9pliement ou repliement) sont tr\u00e8s rarement observ\u00e9s : on les appelle \u00ab \u00e9v\u00e9nements rares \u00bb. Ils repr\u00e9sentent un d\u00e9fi pour les m\u00e9thodes statistiques classiques.<\/p>\n<p>Plus g\u00e9n\u00e9ralement de nombreux syst\u00e8mes physiques suivent ce genre de distributions d\u00e9s\u00e9quilibr\u00e9es, r\u00e9gies par des lois \u00e9nerg\u00e9tiques. La distribution sous-jacente (dite de Boltzmann) traduit le fait que les syst\u00e8mes se stabilisent autour d&rsquo;\u00e9tats dont l&rsquo;\u00e9nergie est minimale : la probabilit\u00e9 d&rsquo;un \u00e9tat est d&rsquo;autant plus forte que l&rsquo;\u00e9nergie associ\u00e9e \u00e0 cet \u00e9tat est faible. Les \u00e9tats les plus stables sont les plus fr\u00e9quents et la transition entre deux \u00e9tats stables est tr\u00e8s difficile \u00e0 observer. Pourtant cette transition int\u00e9resse beaucoup les scientifiques car c\u2019est elle qui r\u00e9v\u00e8le les quantit\u00e9s thermodynamiques d\u2019int\u00e9r\u00eat du syst\u00e8me.<\/p>\n<p>L\u2019\u00e9tude d\u2019un cas d\u2019\u00e9cole en physique (le potentiel de Mueller) permet de simplifier le probl\u00e8me tout en retrouvant les contraintes des syst\u00e8mes physiques r\u00e9els. Il s\u2019agit d\u2019un probl\u00e8me en deux dimensions dans lequel on cherche \u00e0 \u00e9chantillonner la position d\u2019un point (d\u00e9fini par ses coordonn\u00e9es <em>x1<\/em> et <em>x2<\/em>) dans un paysage \u00e9nerg\u00e9tique compos\u00e9 de deux puits principaux d\u2019\u00e9nergie comme le montre la figure ci-dessous.<\/p>\n<div id=\"attachment_6701\" style=\"width: 610px\" class=\"wp-caption aligncenter\"><img loading=\"lazy\" decoding=\"async\" aria-describedby=\"caption-attachment-6701\" class=\"wp-image-6701\" src=\"https:\/\/variances.eu\/wp-content\/uploads\/2022\/05\/cb1-2.png\" alt=\"\" width=\"600\" height=\"446\" srcset=\"https:\/\/variances.eu\/wp-content\/uploads\/2022\/05\/cb1-2.png 783w, https:\/\/variances.eu\/wp-content\/uploads\/2022\/05\/cb1-2-300x223.png 300w, https:\/\/variances.eu\/wp-content\/uploads\/2022\/05\/cb1-2-600x446.png 600w\" sizes=\"(max-width: 600px) 100vw, 600px\" \/><p id=\"caption-attachment-6701\" class=\"wp-caption-text\">Variation en \u00e9nergie sur le potentiel de Mueller<\/p><\/div>\n<p>L\u2019id\u00e9e de la simulation est d\u2019obtenir un \u00e9chantillonnage coh\u00e9rent avec l\u2019\u00e9nergie (les zones d\u2019\u00e9nergie les plus faibles &#8211; plus fonc\u00e9es sur le graphe &#8211; doivent \u00eatre sur-repr\u00e9sent\u00e9es) et diversifi\u00e9 (un maximum de configurations doivent \u00eatre repr\u00e9sent\u00e9es et on veut notamment observer le chemin de passage d\u2019un puits \u00e0 l\u2019autre).<\/p>\n<h3>L\u2019approche traditionnelle : les m\u00e9thodes it\u00e9ratives<\/h3>\n<p>\u00c0 ce jour les m\u00e9thodes les plus classiques pour aborder ce type de probl\u00e8mes en physique sont des m\u00e9thodes it\u00e9ratives (de type MCMC : Monte Carlo par Cha\u00eene de Markov, ou Dynamique Mol\u00e9culaire). L\u2019id\u00e9e est de partir d\u2019une configuration initiale puis de lui appliquer successivement de l\u00e9g\u00e8res modifications pour observer son \u00ab d\u00e9placement \u00bb. Les modifications apport\u00e9es sont li\u00e9es \u00e0 des \u00e9l\u00e9ments de th\u00e9orie physique qui assurent la pertinence de l&rsquo;\u00e9chantillonnage.<\/p>\n<p>Ces approches pr\u00e9sentent deux probl\u00e8mes majeurs. Tout d\u2019abord, elles requi\u00e8rent de partir d\u2019une configuration donn\u00e9e puis d\u2019attendre que le mod\u00e8le ait produit suffisamment d\u2019\u00e9chantillons pour qu\u2019on puisse consid\u00e9rer les points \u00e9chantillonn\u00e9s comme ind\u00e9pendants. Cela repr\u00e9sente (surtout en grande dimension) un co\u00fbt \u00e9norme en calcul.<\/p>\n<p>Deuxi\u00e8mement, ces m\u00e9thodes sont tr\u00e8s d\u00e9pendantes de leur initialisation. Dans le cas des distributions \u00e9tudi\u00e9es (fond\u00e9es sur l\u2019\u00e9nergie) les m\u00e9thodes restent pi\u00e9g\u00e9es dans des configurations d&rsquo;\u00e9nergie faible sans pouvoir passer les barri\u00e8res \u00e9nerg\u00e9tiques permettant de visiter d\u2019autres \u00e9tats. Dans le cas d\u2019une prot\u00e9ine, si on lance une simulation classique \u00e0 partir d&rsquo;une configuration pli\u00e9e, le temps n\u00e9cessaire pour observer le \u00ab\u00a0d\u00e9pliement\u00a0\u00bb sera extr\u00eamement long, voire infini.<\/p>\n<p>Dans l\u2019exemple du potentiel de Mueller, les simulations it\u00e9ratives (MCMC) restent pi\u00e9g\u00e9es dans le puits d\u2019\u00e9nergie le plus proche du point de d\u00e9part comme le montre la figure ci-dessous.<\/p>\n<div id=\"attachment_6702\" style=\"width: 761px\" class=\"wp-caption aligncenter\"><img loading=\"lazy\" decoding=\"async\" aria-describedby=\"caption-attachment-6702\" class=\"size-full wp-image-6702\" src=\"https:\/\/variances.eu\/wp-content\/uploads\/2022\/05\/cb2.png\" alt=\"\" width=\"751\" height=\"329\" srcset=\"https:\/\/variances.eu\/wp-content\/uploads\/2022\/05\/cb2.png 751w, https:\/\/variances.eu\/wp-content\/uploads\/2022\/05\/cb2-300x131.png 300w, https:\/\/variances.eu\/wp-content\/uploads\/2022\/05\/cb2-600x263.png 600w\" sizes=\"(max-width: 751px) 100vw, 751px\" \/><p id=\"caption-attachment-6702\" class=\"wp-caption-text\">\u00c9chantillonnage d\u2019un mod\u00e8le it\u00e9ratif classique (MCMC) : position des points et distribution en \u00e9nergie sur le potentiel de Mueller<\/p><\/div>\n<h3>La simulation \u00e0 l\u2019\u00e8re du Deep Learning<\/h3>\n<p>Les m\u00e9thodes de Deep Learning se sont largement popularis\u00e9es dans le cadre des mod\u00e8les g\u00e9n\u00e9ratifs. En r\u00e8gle g\u00e9n\u00e9rale, ces mod\u00e8les reposent sur une base de donn\u00e9es (compos\u00e9e d\u2019\u00e9chantillons cr\u00e9dibles) et sur des m\u00e9triques que l\u2019on souhaite optimiser (que l\u2019on appelle fonctions de pertes).<\/p>\n<p>\u00c0 partir de ces deux \u00e9l\u00e9ments, les mod\u00e8les appr\u00e9hendent une certaine id\u00e9e de la distribution sous-jacente de la base de donn\u00e9es, et sont capables d\u2019en g\u00e9n\u00e9rer de nouveaux \u00e9chantillons. Des mod\u00e8les comme les R\u00e9seaux Antagonistes G\u00e9n\u00e9ratifs (\u00ab <em>Generative Adversarial Networks<\/em> \u00bb ou GANs) ou les Auto-Encodeurs Variationnels (<em>Variational Autoencoder<\/em> ou VAE) qui reposent sur ces techniques sont aujourd\u2019hui d\u00e9mocratis\u00e9s et largement utilis\u00e9s.<\/p>\n<p>Dans le cas de la simulation physique, ces techniques apparaissent comme une solution possible pour r\u00e9duire le temps de calcul.\u00a0 En effet, une fois un tel mod\u00e8le \u00ab entra\u00een\u00e9 \u00bb, il est capable d\u2019\u00e9chantillonner imm\u00e9diatement des configurations ind\u00e9pendantes sans avoir besoin d\u2019une initialisation et d\u2019it\u00e9rations (c\u2019est ce qu\u2019on appelle le \u00ab<em> one-shot sampling<\/em> \u00bb). Apr\u00e8s entra\u00eenement, le mod\u00e8le peut g\u00e9n\u00e9rer quasi instantan\u00e9ment autant d\u2019\u00e9chantillons que l\u2019on souhaite.<\/p>\n<p>Pourtant leur utilisation en physique reste limit\u00e9e car ces mod\u00e8les ne prennent pas en compte certaines contraintes du champ physique.<\/p>\n<p>Tout d\u2019abord leur manque intrins\u00e8que de transparence pose probl\u00e8me dans un univers scientifique o\u00f9 l\u2019objectif est de d\u00e9gager des lois et d\u2019am\u00e9liorer la compr\u00e9hension des ph\u00e9nom\u00e8nes observ\u00e9s. Pour un physicien, un mod\u00e8le qui fonctionne mais que l\u2019on ne peut pas expliquer et d\u00e9composer a peu de valeur et suscitera de la suspicion.<\/p>\n<p>Ensuite la qualit\u00e9 d\u2019un mod\u00e8le g\u00e9n\u00e9ratif d\u00e9pend uniquement de la qualit\u00e9 de sa base de donn\u00e9es d\u2019entra\u00eenement. Les GANs ou les VAEs sont construits dans l\u2019id\u00e9e d\u2019\u00eatre capable de reproduire la distribution de leur base de donn\u00e9es d&rsquo;entra\u00eenement. Or la constitution d\u2019une base de donn\u00e9es fiable et non biais\u00e9e ne va pas forc\u00e9ment de soi.<\/p>\n<p>Enfin, ces mod\u00e8les sont incapables d\u2019int\u00e9grer certains \u00e9l\u00e9ments de th\u00e9orie. Dans le cas des mod\u00e8les fond\u00e9s sur l\u2019\u00e9nergie, on conna\u00eet la forme g\u00e9n\u00e9rale de la distribution attendue. On sait que la loi finale satisfait au crit\u00e8re de Boltzmann qui relie la probabilit\u00e9 d\u2019une configuration avec l\u2019\u00e9nergie de celle-ci : <img loading=\"lazy\" decoding=\"async\" src=\"https:\/\/variances.eu\/wp-content\/ql-cache\/quicklatex.com-adb648b47177c88d9e9b369fb432a90d_l3.png\" class=\"ql-img-inline-formula quicklatex-auto-format\" alt=\"&#112;&#95;&#123;&#88;&#125;&#40;&#120;&#41;&#92;&#112;&#114;&#111;&#112;&#116;&#111;&#32;&#92;&#101;&#120;&#112;&#32;&#40;&#45;&#117;&#40;&#120;&#41;&#41;\" title=\"Rendered by QuickLaTeX.com\" height=\"19\" width=\"167\" style=\"vertical-align: -5px;\"\/> o\u00f9 <img loading=\"lazy\" decoding=\"async\" src=\"https:\/\/variances.eu\/wp-content\/ql-cache\/quicklatex.com-32de44c93c0763b0e634f45104512626_l3.png\" class=\"ql-img-inline-formula quicklatex-auto-format\" alt=\"&#117;&#40;&#120;&#41;\" title=\"Rendered by QuickLaTeX.com\" height=\"19\" width=\"35\" style=\"vertical-align: -5px;\"\/> est proportionnelle \u00e0 l\u2019\u00e9nergie potentielle du syst\u00e8me. De m\u00eame dans le contexte physique, ce n\u2019est pas tant l\u2019\u00e9chantillonnage g\u00e9n\u00e9ral qui est important que la mod\u00e9lisation d\u2019une trajectoire pour laquelle la connaissance des \u201ccoordonn\u00e9es de r\u00e9action\u201d peut \u00eatre utile. Dans les deux cas, ces \u00e9l\u00e9ments th\u00e9oriques sont des indices qui pourraient aider le mod\u00e8le \u00e0 \u00eatre plus pertinent mais qui ne peuvent pas \u00eatre int\u00e9gr\u00e9s dans l\u2019entra\u00eenement du mod\u00e8le.<\/p>\n<p>Pour mettre en lumi\u00e8re ces failles sur l\u2019exemple du potentiel de Mueller, imaginons que l\u2019on cherche \u00e0 entra\u00eener un VAE. Pour constituer une base de donn\u00e9es de d\u00e9part, on pourrait envisager de lancer une simulation it\u00e9rative MCMC partant du puits le plus profond (en haut \u00e0 gauche) puis une seconde partant du puits le moins profond (en bas \u00e0 droite) afin de constituer une base repr\u00e9sentative sur laquelle entra\u00eener le mod\u00e8le.<\/p>\n<p>Mais apr\u00e8s entra\u00eenement, le VAE reproduit exactement la base de donn\u00e9es sur laquelle il a \u00e9t\u00e9 entra\u00een\u00e9. En particulier, il \u00e9chantillonne autant de points dans le puits le plus profond que dans le puits interm\u00e9diaire, alors m\u00eame que la physique nous dit que le puits le plus profond (o\u00f9 les \u00e9nergies sont les plus basses) devrait \u00eatre sur-repr\u00e9sent\u00e9.<\/p>\n<div id=\"attachment_6706\" style=\"width: 791px\" class=\"wp-caption aligncenter\"><img loading=\"lazy\" decoding=\"async\" aria-describedby=\"caption-attachment-6706\" class=\"size-full wp-image-6706\" src=\"https:\/\/variances.eu\/wp-content\/uploads\/2022\/05\/cb3.png\" alt=\"\" width=\"781\" height=\"351\" srcset=\"https:\/\/variances.eu\/wp-content\/uploads\/2022\/05\/cb3.png 781w, https:\/\/variances.eu\/wp-content\/uploads\/2022\/05\/cb3-300x135.png 300w, https:\/\/variances.eu\/wp-content\/uploads\/2022\/05\/cb3-600x270.png 600w\" sizes=\"(max-width: 781px) 100vw, 781px\" \/><p id=\"caption-attachment-6706\" class=\"wp-caption-text\">\u00c9chantillonnage d\u2019un mod\u00e8le g\u00e9n\u00e9ratif classique (VAE) : position des points et distribution en \u00e9nergie sur le potentiel de Mueller<\/p><\/div>\n<p>Cette qu\u00eate d\u2019une plus grande transparence et de la possibilit\u00e9 d\u2019int\u00e9grer des \u00e9l\u00e9ments th\u00e9oriques sur les lois \u00e9chantillonn\u00e9es pendant l\u2019entra\u00eenement conduit \u00e0 s\u2019int\u00e9resser aux r\u00e9seaux de neurones inversibles (not\u00e9s par la suite INNs pour \u00ab <em>Invertible Neural Networks <\/em><em>\u00bb<\/em>).<\/p>\n<h3>Les r\u00e9seaux de neurones inversibles face aux limites des mod\u00e8les traditionnels<\/h3>\n<p>Pour comprendre le changement de paradigme apport\u00e9 par les INNs, il faut d\u2019abord s\u2019int\u00e9resser au fonctionnement des mod\u00e8les de Deep Learning tels que les GANs ou les VAEs.<\/p>\n<p>Leur principe de base est la recherche d\u2019une fonction de transition entre un espace latent connu et l\u2019espace d\u2019int\u00e9r\u00eat dans lequel on cherche \u00e0 \u00e9chantillonner. On cherche \u00e0 identifier une fonction qui prendra en entr\u00e9e des \u00e9chantillons d\u2019une loi facile \u00e0 simuler (par exemple une loi Normale) et qui retournera en sortie des \u00e9chantillons de la loi inconnue qui nous int\u00e9resse.<\/p>\n<p>Dans le cas du potentiel de Mueller, on souhaite trouver une fonction capable de prendre en entr\u00e9e des vecteurs de taille 2 (simul\u00e9s par une loi normale) et qui renverra des vecteurs de taille 2 repr\u00e9sentant la position du point dans l\u2019espace.<\/p>\n<div id=\"attachment_6708\" style=\"width: 877px\" class=\"wp-caption aligncenter\"><img loading=\"lazy\" decoding=\"async\" aria-describedby=\"caption-attachment-6708\" class=\"size-full wp-image-6708\" src=\"https:\/\/variances.eu\/wp-content\/uploads\/2022\/05\/cb4-1.png\" alt=\"\" width=\"867\" height=\"430\" srcset=\"https:\/\/variances.eu\/wp-content\/uploads\/2022\/05\/cb4-1.png 867w, https:\/\/variances.eu\/wp-content\/uploads\/2022\/05\/cb4-1-300x149.png 300w, https:\/\/variances.eu\/wp-content\/uploads\/2022\/05\/cb4-1-600x298.png 600w\" sizes=\"(max-width: 867px) 100vw, 867px\" \/><p id=\"caption-attachment-6708\" class=\"wp-caption-text\">Principe d\u2019un mod\u00e8le de Deep Learning classique dans le cadre g\u00e9n\u00e9ratif (GAN, VAE)<\/p><\/div>\n<p>Le souci r\u00e9side bien s\u00fbr dans le choix de cette fonction de transition F qui doit \u00eatre suffisamment complexe pour \u00eatre capable de transformer la Gaussienne et de la modeler en une distribution repr\u00e9sentative de notre espace d\u2019int\u00e9r\u00eat. On a alors recours pour F \u00e0 un<em> \u00ab r\u00e9seau de neurones <\/em><em>\u00bb,<\/em> \u00e0 savoir une succession de transformations (telles que des multiplications par des matrices, l\u2019application de fonctions non lin\u00e9aires, des convolutions etc). Cette fonction aura de nombreux param\u00e8tres (par exemple les poids des matrices) que l\u2019on optimisera gr\u00e2ce \u00e0 une m\u00e9trique lors de la phase d\u2019entra\u00eenement sur les donn\u00e9es.<\/p>\n<p>L\u2019id\u00e9e de base des INNs est de faire de cette fonction de transition entre espace latent et espace d\u2019int\u00e9r\u00eat une fonction (1) inversible, (2) bijective, (3) avec des d\u00e9terminants de Jacobiennes<a href=\"#_ftn1\" name=\"_ftnref1\"><sup>[1]<\/sup><\/a> faciles \u00e0 calculer. Ce sont des contraintes tr\u00e8s fortes car les architectures habituellement utilis\u00e9es pour construire des r\u00e9seaux de neurones ne respectent pas ces propri\u00e9t\u00e9s. En r\u00e9alit\u00e9, l\u2019essor r\u00e9cent des INNs n\u2019a \u00e9t\u00e9 permis que par la d\u00e9couverte du \u00ab <em>coupling block<\/em> \u00bb par<a href=\"https:\/\/arxiv.org\/abs\/1605.08803\"> Dinh et Al<\/a> [1] : une transformation astucieuse qui permet de garantir l\u2019inversibilit\u00e9 tout en introduisant suffisamment de complexit\u00e9. C\u2019est \u00e0 partir de ce bloc de base que sont construits les INNs.<\/p>\n<p>Satisfaire \u00e0 ces contraintes a deux int\u00e9r\u00eats principaux :<\/p>\n<ul>\n<li>Tout d\u2019abord l\u2019introduction d\u2019une bijection entre l\u2019espace latent et l\u2019espace des configurations a intrins\u00e8quement de la valeur. Elle permettra de faire des allers-retours entre ces deux espaces et de percer les rouages de notre mod\u00e8le gr\u00e2ce \u00e0 l\u2019analyse de l\u2019espace latent.<\/li>\n<li>Ensuite la bijectivit\u00e9 de la fonction et la connaissance des d\u00e9terminants des Jacobiennes permet d\u2019utiliser la formule du changement de variable qui nous donne acc\u00e8s \u00e0 une expression exacte de la fonction de densit\u00e9 de X (espace des configurations) \u00e0 partir de celle de Z (espace latent). Cela ouvre la porte \u00e0 l\u2019utilisation de tr\u00e8s nombreuses m\u00e9triques d\u2019entra\u00eenement fond\u00e9es sur cette fonction de densit\u00e9 : maximum de vraisemblance, divergences avec des lois attendues (comme la loi de Boltzmann d\u00e9crite dans le paragraphe pr\u00e9c\u00e9dent).<\/li>\n<\/ul>\n<p>En bref, les INNs permettent une transparence accrue et la possibilit\u00e9 d\u2019int\u00e9grer des contraintes th\u00e9oriques dans l\u2019entra\u00eenement du r\u00e9seau de neurones.<\/p>\n<p>Pour reprendre l\u2019exemple du potentiel de Mueller, il est possible de construire un INN et de l\u2019optimiser selon une panoplie de m\u00e9triques reposant sur la th\u00e9orie physique et qui n\u2019\u00e9taient pas utilisables avec des architectures classiques. Plus pr\u00e9cis\u00e9ment dans cet exemple on peut avoir recours \u00e0 :<\/p>\n<ul>\n<li>une m\u00e9trique \u00ab d\u2019apprentissage par l\u2019exemple \u00bb : on fournit au mod\u00e8le des exemples de configurations comme dans un mod\u00e8le de Deep Learning classique. L\u2019id\u00e9e est de \u00ab cadrer \u00bb le mod\u00e8le en lui donnant un point de d\u00e9part.<\/li>\n<li>une m\u00e9trique \u00ab \u00e9nerg\u00e9tique \u00bb : les \u00e9nergies les plus faibles doivent \u00eatre surrepr\u00e9sent\u00e9es et ce en coh\u00e9rence avec la distribution de Boltzmann.<\/li>\n<li>une m\u00e9trique de coordonn\u00e9e de r\u00e9action : comme dans de nombreux cas en physique, on conna\u00eet ici une variable collective du syst\u00e8me qui nous permet de pousser le mod\u00e8le \u00e0 \u00e9chantillonner le long d\u2019une direction d\u2019int\u00e9r\u00eat.<\/li>\n<\/ul>\n<p>\u00c0 l\u2019issue de cet entra\u00eenement, le mod\u00e8le est capable d\u2019\u00e9chantillonner de mani\u00e8re ind\u00e9pendante des points dans l\u2019espace, et ce instantan\u00e9ment (plus besoin d\u2019attendre la convergence des m\u00e9thodes it\u00e9ratives)\u00a0; il a \u00e9galement int\u00e9gr\u00e9 les contraintes \u00e9nerg\u00e9tiques (la distribution est coh\u00e9rente avec la loi de Boltzmann) et on peut enfin selon le besoin sur-\u00e9chantillonner le long d\u2019une coordonn\u00e9e de r\u00e9action, ce qui se r\u00e9v\u00e9lera tr\u00e8s utile pour l\u2019analyse des trajectoires de transition.<\/p>\n<p>Un exemple d\u2019\u00e9chantillonnage apr\u00e8s entra\u00eenement est repr\u00e9sent\u00e9 sur la figure suivante. On peut notamment remarquer que la contrainte \u00e9nerg\u00e9tique est mieux respect\u00e9e (le puits le moins profond est sous-\u00e9chantillonn\u00e9 par rapport au puits le plus profond), ce qui n\u2019\u00e9tait pas le cas avec le VAE. D\u2019autre part et sans rentrer dans les d\u00e9tails, la possibilit\u00e9 de passer de l\u2019espace des configurations \u00e0 l\u2019espace latent (de par le caract\u00e8re bijectif du r\u00e9seau) permet d\u2019approfondir la compr\u00e9hension du probl\u00e8me en analysant la r\u00e9gularit\u00e9 de l\u2019espace latent, voire en proc\u00e9dant \u00e0 des interpolations.<\/p>\n<div id=\"attachment_6709\" style=\"width: 945px\" class=\"wp-caption aligncenter\"><img loading=\"lazy\" decoding=\"async\" aria-describedby=\"caption-attachment-6709\" class=\"size-full wp-image-6709\" src=\"https:\/\/variances.eu\/wp-content\/uploads\/2022\/05\/cb5.png\" alt=\"\" width=\"935\" height=\"220\" srcset=\"https:\/\/variances.eu\/wp-content\/uploads\/2022\/05\/cb5.png 935w, https:\/\/variances.eu\/wp-content\/uploads\/2022\/05\/cb5-300x71.png 300w, https:\/\/variances.eu\/wp-content\/uploads\/2022\/05\/cb5-600x141.png 600w\" sizes=\"(max-width: 935px) 100vw, 935px\" \/><p id=\"caption-attachment-6709\" class=\"wp-caption-text\">\u00c9chantillonnage d\u2019un r\u00e9seau de neurones inversibles : position des points dans l\u2019espace latent, dans l\u2019espace des configurations, et distribution en \u00e9nergie sur le potentiel de Mueller<\/p><\/div>\n<h3>Conclusion\u00a0: un champ tr\u00e8s prometteur mais qui reste encore \u00e0 d\u00e9fricher\u00a0!<\/h3>\n<p>En conclusion, les R\u00e9seaux de Neurones inversibles acc\u00e9l\u00e8rent de plusieurs ordres de grandeur les simulations par rapport aux m\u00e9thodes it\u00e9ratives tout en \u00e9tant bien plus transparents que les m\u00e9thodes de Deep Learning du fait de l\u2019inversibilit\u00e9 du r\u00e9seau.<\/p>\n<p>La recrudescence r\u00e9cente de ces architectures d\u00e9montre la volont\u00e9 de la communaut\u00e9 scientifique d\u2019aller au-del\u00e0 de la pr\u00e9cision et de la rapidit\u00e9 de calcul en ajoutant une exigence de transparence et de justesse th\u00e9orique \u00e0 l\u2019\u00e9quation classique de la simulation.<\/p>\n<p>Au sein du laboratoire l\u2019utilisation de cette architecture coupl\u00e9e avec d\u2019autres techniques plus classiques (comme la m\u00e9tadynamique) s\u2019est r\u00e9v\u00e9l\u00e9e tr\u00e8s prometteuse. Cependant il reste encore quelques points d\u2019interrogation en particulier le passage en tr\u00e8s grande dimension et le choix des m\u00e9triques d\u2019entra\u00eenement les plus adapt\u00e9es.<\/p>\n<p>Affaire \u00e0 suivre donc \u2026<\/p>\n<p>&nbsp;<\/p>\n<p><em><a href=\"#_ftnref1\" name=\"_ftn1\"><sup>1<\/sup><\/a>\u00a0Les Jacobiennes sont une g\u00e9n\u00e9ralisation de la d\u00e9riv\u00e9e pour des fonctions vectorielles (avec des espaces d\u2019arriv\u00e9e et de sortie de dimension sup\u00e9rieure \u00e0 1)<\/em><\/p>\n<hr \/>\n<h3>R\u00e9f\u00e9rences principales :<\/h3>\n<p>[1] Density estimation using Real NVP (Laurent Dinh, Jascha Sohl-Dickstein, Samy Bengio) <a href=\"https:\/\/arxiv.org\/abs\/1605.08803\"><span style=\"text-decoration: underline;\"><span style=\"color: #0000ff; text-decoration: underline;\">https:\/\/arxiv.org\/abs\/1605.08803<\/span><\/span><\/a><\/p>\n<p>[2] Boltzmann generators: Sampling equilibrium states of many-body systems with deep learning (Frank No\u00e9, Simon Olsson, Jonas K\u00f6hler, Hao Wu) <a href=\"https:\/\/www.science.org\/doi\/10.1126\/science.aaw1147\"><span style=\"text-decoration: underline;\"><span style=\"color: #0000ff; text-decoration: underline;\">https:\/\/www.science.org\/doi\/10.1126\/science.aaw1147<\/span><\/span><\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Apr\u00e8s un Mast\u00e8re Sp\u00e9cialis\u00e9 en Data Science \u00e0 l\u2019ENSAE, Caroline Boudier a effectu\u00e9 son stage de fin d\u2019\u00e9tudes \u00e0 la Direction des Applications Militaires du CEA. Dans cet article, elle r\u00e9sume ces quelques mois d\u2019exploration autour de l\u2019application d\u2019un mod\u00e8le innovant de Deep Learning (les R\u00e9seaux de Neurones Inversibles) \u00e0 la simulation des syst\u00e8mes physiques [&hellip;]<\/p>\n","protected":false},"author":411,"featured_media":6698,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_et_pb_use_builder":"","_et_pb_old_content":"","_et_gb_content_width":"","_exactmetrics_skip_tracking":false,"_exactmetrics_sitenote_active":false,"_exactmetrics_sitenote_note":"","_exactmetrics_sitenote_category":0,"footnotes":""},"categories":[164],"tags":[],"class_list":["post-6697","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-intelligence-artificielle","et-has-post-format-content","et_post_format-et-post-format-standard"],"_links":{"self":[{"href":"https:\/\/variances.eu\/index.php?rest_route=\/wp\/v2\/posts\/6697","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/variances.eu\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/variances.eu\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/variances.eu\/index.php?rest_route=\/wp\/v2\/users\/411"}],"replies":[{"embeddable":true,"href":"https:\/\/variances.eu\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=6697"}],"version-history":[{"count":0,"href":"https:\/\/variances.eu\/index.php?rest_route=\/wp\/v2\/posts\/6697\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/variances.eu\/index.php?rest_route=\/wp\/v2\/media\/6698"}],"wp:attachment":[{"href":"https:\/\/variances.eu\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=6697"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/variances.eu\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=6697"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/variances.eu\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=6697"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}