{"id":3221,"date":"2018-05-25T09:15:14","date_gmt":"2018-05-25T07:15:14","guid":{"rendered":"http:\/\/variances.eu\/?p=3221"},"modified":"2018-05-25T09:20:49","modified_gmt":"2018-05-25T07:20:49","slug":"colloque-intelligence-artificielle-fiction-actions-evolutions-mathematiques-de-science-donnees","status":"publish","type":"post","link":"https:\/\/variances.eu\/?p=3221","title":{"rendered":"Colloque \u00ab Intelligence Artificielle : fiction ou actions ? \u00bb :  Les \u00e9volutions math\u00e9matiques de la science des donn\u00e9es"},"content":{"rendered":"<p style=\"text-align: center;\"><span style=\"color: #0000ff;\"><strong>Expos\u00e9 de Marco Cuturi, Professeur ENSAE-CREST<\/strong><\/span><\/p>\n<p style=\"text-align: center;\">(Retranscription de Philippe Tassi)<\/p>\n<hr \/>\n<p>Cet expos\u00e9 constitue une suite tout \u00e0 fait coh\u00e9rente \u00e0 celui du professeur Saporta, car centr\u00e9 sur l\u2019apprentissage non supervis\u00e9. Mon propos abordera deux th\u00e9matiques : d\u2019une part les mod\u00e8les g\u00e9n\u00e9ratifs, en anglais les <em>generative models<\/em>, qui font actuellement un quart des interventions dans les conf\u00e9rences portant sur le <em>machine learning<\/em> ; d\u2019autre part, le transport optimal, probl\u00e9matique de pr\u00e9dilection de C\u00e9dric Villani qui en est l\u2019ambassadeur depuis de nombreuses ann\u00e9es. C\u2019est un sujet qui remonte tr\u00e8s loin dans l\u2019histoire des math\u00e9matiques en France, jusqu\u2019\u00e0 Gaspard Monge (1746 \u2013 1818). Le transport optimal, issu des math\u00e9matiques pures, est utile pour r\u00e9soudre le probl\u00e8me des mod\u00e8les g\u00e9n\u00e9ratifs, tr\u00e8s \u00e0 la mode en <em>machine learning<\/em>.<\/p>\n<h3><strong>Les mod\u00e8les g\u00e9n\u00e9ratifs<\/strong><\/h3>\n<p>Commen\u00e7ons par r\u00e9introduire l\u2019estimation de densit\u00e9<em>.<\/em><\/p>\n<p>La difficult\u00e9 de l\u2019estimation de densit\u00e9 est la dimension de l\u2019espace qui contient les points observ\u00e9s, qui peut \u00eatre extr\u00eamement grande. Le r\u00f4le du statisticien est de r\u00e9sumer l\u2019information contenue dans l\u2019\u00e9chantillon observ\u00e9. Pour cela, il dispose, dans son arsenal, de l\u2019ensemble des mod\u00e8les param\u00e9tr\u00e9s. Par exemple, il pourra conclure que les observations sont distribu\u00e9es selon une densit\u00e9 de la famille des lois gaussiennes multivari\u00e9es. Dans cette famille, l\u2019id\u00e9e est de trouver la loi qui semble le mieux se rapprocher des donn\u00e9es.<\/p>\n<p>L\u2019un des crit\u00e8res principaux pour proc\u00e9der \u00e0 ce calcul a \u00e9t\u00e9 introduit par Sir Ronald Fisher (1890 \u2013 1962), au d\u00e9but du XX<sup>\u00e8me<\/sup> si\u00e8cle, dans un article intitul\u00e9 \u00ab\u00a0On an Absolute Criterion for Fitting Frequency Curves\u00a0\u00bb, publi\u00e9 en 1912 dans <em>Messenger of Mathematics<\/em>. Dans cet article, Fisher expose la m\u00e9thode du maximum de vraisemblance.<\/p>\n<div id=\"attachment_3222\" style=\"width: 209px\" class=\"wp-caption aligncenter\"><img loading=\"lazy\" decoding=\"async\" aria-describedby=\"caption-attachment-3222\" class=\"size-full wp-image-3222\" src=\"http:\/\/variances.eu\/wp-content\/uploads\/2018\/05\/1.jpg\" alt=\"\" width=\"199\" height=\"279\" \/><p id=\"caption-attachment-3222\" class=\"wp-caption-text\">Ronald Fisher en 1913<\/p><\/div>\n<p>Pour des donn\u00e9es (x<sub>i<\/sub>), i = 1 \u00e0 n, et une classe de densit\u00e9s P<sub>\u03b8<\/sub>, \u03b8 \u00e9tant un vecteur de param\u00e8tres, on veut d\u00e9terminer les param\u00e8tres maximisant le logarithme de la vraisemblance, c\u2019est-\u00e0-dire la somme des logarithmes des P<sub>\u03b8<\/sub>(x<sub>i<\/sub>). Une remarque : on a l\u2019habitude d\u2019utiliser le maximum de vraisemblance avec les mod\u00e8les simples, comme les mod\u00e8les gaussiens, qui couvrent tout l\u2019espace\u00a0; P<sub>\u03b8<\/sub>(x<sub>i<\/sub>) est donc toujours positif. Si P<sub>\u03b8<\/sub>(x<sub>i<\/sub>) = 0, le logarithme est &#8211; \u221e, ce qui pose \u00e9ventuellement probl\u00e8me.<\/p>\n<p>Le maximum de vraisemblance peut s\u2019interpr\u00e9ter aussi de mani\u00e8re g\u00e9om\u00e9trique. L\u2019id\u00e9e est de rechercher le vecteur \u03b8 minimisant la divergence au sens de Kullback-Leibler, KL, entre la mesure empirique \u03bd associ\u00e9e aux donn\u00e9es, \u03bd = [\u03a3<sub>i=1\u00e0n<\/sub> \u03b4(x<sub>i<\/sub>)]\/n o\u00f9 \u03b4 est le symbole de la masse de Dirac, et l\u2019ensemble des densit\u00e9s gaussiennes, par exemple. On a donc \u00e0 r\u00e9soudre un probl\u00e8me de minimisation\u00a0:<\/p>\n<p style=\"text-align: center;\">Min<sub>\u03b8<\/sub> KL(\u03bd, P<sub>\u03b8<\/sub>)<\/p>\n<p>L\u2019objectif est bien de chercher le mod\u00e8le de probabilit\u00e9 le plus proche des donn\u00e9es.<\/p>\n<p>Mais que se passe-t-il en pratique quand cette d\u00e9marche d\u2019estimation de densit\u00e9 est r\u00e9alis\u00e9e dans une dimension plus \u00e9lev\u00e9e que 2, par exemple en dimension 3\u00a0? Tout devient plus compliqu\u00e9. C\u2019est possible, \u00e9videmment, avec des lois gaussiennes car les ellipso\u00efdes d\u00e9finissent les niveaux de densit\u00e9. Mais des lois plus complexes posent probl\u00e8mes.<\/p>\n<p>Mais l\u00e0 o\u00f9 les vraies difficult\u00e9s commencent, c\u2019est quand les points ne sont plus en faible dimension 3, 4, ou m\u00eame 100, mais 30\u00a0000.<\/p>\n<p><img loading=\"lazy\" decoding=\"async\" class=\"aligncenter wp-image-3223 size-medium\" src=\"http:\/\/variances.eu\/wp-content\/uploads\/2018\/05\/2-300x291.png\" alt=\"\" width=\"300\" height=\"291\" srcset=\"https:\/\/variances.eu\/wp-content\/uploads\/2018\/05\/2-300x291.png 300w, https:\/\/variances.eu\/wp-content\/uploads\/2018\/05\/2-600x583.png 600w, https:\/\/variances.eu\/wp-content\/uploads\/2018\/05\/2.png 620w\" sizes=\"(max-width: 300px) 100vw, 300px\" \/><\/p>\n<p>Pour un nuage de points comme celui repr\u00e9sent\u00e9 ci-dessus, qui est dans , la question est d\u00e9j\u00e0 complexe. Mais supposons que l\u2019on y ins\u00e8re par exemple des images ou des photos qui sont des vecteurs de dimension 30\u00a0000\u00a0(images de 100 x 100 pixels, o\u00f9 chaque pixel contient trois valeurs)\u00a0; comment faire de l\u2019estimation de densit\u00e9 en dimension 30000\u00a0?<\/p>\n<p>Plusieurs approches sont alors envisageables. Estimer une loi gaussienne en dimension 30\u00a0000 sera impossible. Une mani\u00e8re simple est d\u2019essayer de r\u00e9duire la dimension des observations pour pouvoir d\u00e9finir des mod\u00e8les sur ces repr\u00e9sentations en plus basse dimension. Cette approche est tr\u00e8s classique, mais elle emp\u00eache pratiquement de tirer al\u00e9atoirement des images. Vers 2013-2014, les communaut\u00e9s <em>machine learning<\/em> ont propos\u00e9 de param\u00e9trer ce probl\u00e8me de mani\u00e8re diff\u00e9rente\u00a0: le point de vue g\u00e9n\u00e9ratif.<\/p>\n<p>Une remarque pr\u00e9alable\u00a0: nous allons, dans ce qui suit, employer souvent le mot image\u00a0; rappelons que ce mot a un sens en math\u00e9matiques, image d\u2019un espace par une fonction, et un autre sens en langage courant\u00a0: image comme un dessin ou, ici, une photo. Le contexte de chaque phrase permet de distinguer chacun des deux sens.<\/p>\n<p>L\u2019approche g\u00e9n\u00e9rative est la suivante\u00a0: partant toujours des donn\u00e9es (x<sub>i<\/sub>), i = 1 \u00e0 n, ou de leur loi empirique \u03bd, d\u2019une dimension tr\u00e8s grande, il ne s\u2019agit plus de d\u00e9finir la loi P<sub>\u03b8<\/sub> la plus adapt\u00e9e, comme pr\u00e9c\u00e9demment. Le principe consiste \u00e0 passer par un espace latent, une vari\u00e9t\u00e9 de dimension tr\u00e8s inf\u00e9rieure. Par exemple, un espace latent de dimension 10 ou 100 alors que l\u2019espace originel des donn\u00e9es est de dimension 30\u00a0000. Le probl\u00e8me d\u2019estimation dans un cadre g\u00e9n\u00e9ratif n\u2019est plus d\u2019estimer P<sub>\u03b8<\/sub>, c\u2019est-\u00e0-dire une densit\u00e9 sur l\u2019espace de toutes les images possibles de 100 x 100 pixels, mais plut\u00f4t d\u2019estimer une fonction f<sub>\u03b8<\/sub> de l\u2019espace latent dans l\u2019espace des donn\u00e9es\u00a0; l\u2019id\u00e9e est ainsi que l\u2019image \u2013 au sens fonctionnel du terme \u2013 via f<sub>\u03b8<\/sub> de l\u2019espace latent ne couvre pas forc\u00e9ment l\u2019ensemble des donn\u00e9es, mais en soit le plus proche possible\u00a0; dit autrement, f<sub>\u03b8<\/sub> ne peut pas \u00eatre une surjection.<\/p>\n<p>Ce principe est tr\u00e8s utilis\u00e9 par exemple pour la g\u00e9n\u00e9ration d\u2019images \u2013 au sens photos \u2013. Le param\u00e8tre \u03b8 sera choisi pour que l\u2019espace s\u2019adapte assez bien aux donn\u00e9es. Pour cela, il est n\u00e9cessaire de disposer d\u2019une formule math\u00e9matique qui quantifie la ressemblance entre la vari\u00e9t\u00e9 d\u00e9finie par f<sub>\u03b8<\/sub> et le nuage de points.<\/p>\n<p>Le r\u00e9flexe statistique le plus fr\u00e9quent serait de recourir \u00e0 la bonne vieille formule du maximum de vraisemblance. Malheureusement, la situation \u00e9voqu\u00e9e au d\u00e9but de ce paragraphe est ici bien r\u00e9elle, puisque si, par exemple, une loi gaussienne en dimension 3 remplit tout l\u2019espace et donc tous les points de R<sup>3<\/sup> ont une probabilit\u00e9 positive<em>,<\/em> m\u00eame si elle est tr\u00e8s faible, dans le cas pr\u00e9sent le mod\u00e8le ne va pas \u00eatre capable de g\u00e9n\u00e9rer toutes les observations fournies. L\u2019approche va \u00eatre totalement g\u00e9om\u00e9trique pour calculer la distance entre une vari\u00e9t\u00e9 et un nuage de points<em>.<\/em><\/p>\n<p>L\u2019innovation apport\u00e9e dans les ann\u00e9es 2013-2014 a \u00e9t\u00e9 de formuler cette question comme un probl\u00e8me de classification. Je renvoie \u00e0 la litt\u00e9rature, sur ce point, et plus pr\u00e9cis\u00e9ment aux GAN, les <em>Generative Adversarial Networks<\/em>.<\/p>\n<p>L\u2019approche g\u00e9om\u00e9trique propos\u00e9e consiste, pour quantifier la diff\u00e9rence entre la vari\u00e9t\u00e9 et le nuage de points, \u00e0 trouver des bonnes m\u00e9triques \u0394 entre mesures de probabilit\u00e9. Depuis les ann\u00e9es 70, de nombreuses publications pr\u00e9conisent de ne pas faire du maximum de vraisemblance. Sur le choix de \u0394, citons, \u00e0 titre d\u2019exemples, <em>Minimum Chi-Square, not Maximum Likelihood<\/em>, de Joseph Berkson, <em>Annals of Statistics<\/em>, 1980, <em>Minimum Hellinger Distance estimation for Poisson mixtures<\/em>, de Dimitris Karlis et Evdokia Xekalaki, <em>Computational Statistics and Data Analysis<\/em>, 1998\u00a0; en 2006, un article recommande les estimateurs dits de Kantorovich, qui sont des estimateurs de transport optimal\u00a0: <em>On mimimum Kantorovich Distance Estimators<\/em>, Federico Bassetti, Antonella Bodini, Eugenio Regazzini, <em>Statistics and Probability Letters<\/em>, 2006.<\/p>\n<p>Pour les mod\u00e8les g\u00e9n\u00e9ratifs, il faut mentionner par exemple <em>MMG GAN\u00a0: Towards Deeper Understanding of Moment Matching Network<\/em>, de C-L. Li, W-C. Chang, Y. Cheng, Y. Yang, B. Poczos, 2017, ou <em>Training Generative Neural Networks via Maximum Mean Discrepancy Optimization<\/em>, Gintare Dziungaite, Daniel Roy, Zoubin Ghahramani, 2015, <em>Wasserstein Training of Restricted Boltzmann Machines<\/em>, Gr\u00e9goire Montavon, Klaus-Robert M\u00fcller, Marco Cuturi, 2015, <em>Inference in Generative Models using Wasserstein distance<\/em>, E. Bernton, M. Gerber, P. Jacob, Ch. Robert, 2017, ou encore <em>Wasserstein GAN<\/em>, Martin Arjovsky, Soumith Chintala, L\u00e9on Botton, 2017, <em>Learning Generative Models with Sinkhorn Divergences<\/em>, Aude Genevay, Gabriel Peyr\u00e9, Marco Cuturi, 2017, <em>Improving GANs Using Optimal Transport<\/em>, Tim Salimans, Han Zhang, Alec Radford, Dimitris Metaxas, 2018. Parmi les auteurs, des universitaires, et aussi des membres du Facebook AI Research, comme L\u00e9on Botton.<\/p>\n<h3><strong>Le transport optimal<\/strong><\/h3>\n<p>La transition est donc faite avec la deuxi\u00e8me th\u00e9matique de la pr\u00e9sentation\u00a0: le transport optimal. L\u2019id\u00e9e est d\u2019utiliser la distance dite de transport optimal entre mesures de probabilit\u00e9 pour comparer la proximit\u00e9 entre les donn\u00e9es et la vari\u00e9t\u00e9.<\/p>\n<p>Qu\u2019est-ce que le transport optimal\u00a0?<\/p>\n<p>Comme dit en introduction, c\u2019est un sujet initialement tr\u00e8s fran\u00e7ais, m\u00eame s\u2019il est maintenant mondial. L\u2019initiateur a \u00e9t\u00e9 Gaspard Monge, au XVIIIe si\u00e8cle\u00a0; cependant, pendant presque un si\u00e8cle et demi, le transport optimal n\u2019a plus suscit\u00e9 l\u2019int\u00e9r\u00eat des math\u00e9maticiens. Monge a soulev\u00e9 un probl\u00e8me que personne n\u2019arrivait \u00e0 r\u00e9soudre.<\/p>\n<p>Au cours de la seconde guerre mondiale, l\u2019id\u00e9e du transport optimal est devenue cruciale, la guerre montrant l\u2019importance de la logistique, sur tous les plans. Des progr\u00e8s majeurs ont alors \u00e9t\u00e9 r\u00e9alis\u00e9s notamment par Leonid Kantorovich et Tjalling Koopmans, qui ont re\u00e7u le prix Nobel d\u2019Economie pr\u00e8s de trente ans plus tard, en 1975. D\u2019autres auraient peut-\u00eatre m\u00e9rit\u00e9 la m\u00eame r\u00e9compense, comme George Dantzig qui a r\u00e9solu le probl\u00e8me pos\u00e9 par Kantorovich. Plus pr\u00e8s de nous, mentionnons C\u00e9dric Villani (M\u00e9daille Fields en 2010) tr\u00e8s connu pour ses travaux et livres dans le domaine (<em>Topics in Optimal Transportation<\/em>, American Mathematical Society, 2003\u00a0; <em>Optimal Transport\u00a0: Old and New<\/em>, Springer, 2009).<\/p>\n<p>Les photos qui suivent mettent \u00e0 l\u2019honneur divers contributeurs \u00e0 l\u2019avanc\u00e9e du transport optimal.<\/p>\n<p><img loading=\"lazy\" decoding=\"async\" class=\"aligncenter size-full wp-image-3224\" src=\"http:\/\/variances.eu\/wp-content\/uploads\/2018\/05\/3.jpg\" alt=\"\" width=\"946\" height=\"513\" srcset=\"https:\/\/variances.eu\/wp-content\/uploads\/2018\/05\/3.jpg 946w, https:\/\/variances.eu\/wp-content\/uploads\/2018\/05\/3-300x163.jpg 300w, https:\/\/variances.eu\/wp-content\/uploads\/2018\/05\/3-600x325.jpg 600w\" sizes=\"(max-width: 946px) 100vw, 946px\" \/><\/p>\n<p>Pour les <em>data scientists<\/em>, le transport optimal peut \u00eatre vu comme une distance sur l\u2019espace des mesures de probabilit\u00e9, tr\u00e8s diff\u00e9rente des distances classiques comme celles d\u2019Euclide ou Kullback-Leibler. Tout mod\u00e8le statistique repose sur une mesure de probabilit\u00e9.<\/p>\n<p>Un exemple simple et intuitif est constitu\u00e9 des <em>bags of words<\/em>, les sacs de mots. Dans l\u2019analyse d\u2019un texte, plut\u00f4t que d\u2019essayer de comprendre la complexit\u00e9 grammaticale du mot et la linguistique, il est facile de comparer deux styles de textes. Un \u00ab\u00a0sac de mots\u00a0\u00bb est une mesure de probabilit\u00e9 sur l\u2019espace des mots.<\/p>\n<p>Dans les ph\u00e9nom\u00e8nes naturels, ce qui est observ\u00e9 peut \u00eatre quantifi\u00e9 de mani\u00e8re probabiliste\u00a0: regarder une tache plut\u00f4t que voir un point localis\u00e9. Cette approche est utilis\u00e9e pour tout ce qui est \u00e9tude du cerveau.<\/p>\n<p>En pratique, pour illustrer par quelques exemples, le transport sera utile pour comparer deux sacs de mots, avec acc\u00e8s \u00e0 une g\u00e9om\u00e9trie pertinente sur les mots, ou pour comparer deux histogrammes d\u2019activation sur le cortex, sous r\u00e9serve d\u2019une distance entre deux points d\u2019un cortex.<\/p>\n<p>La g\u00e9om\u00e9trie du transport optimal est int\u00e9ressante parce qu\u2019elle induit des outils tr\u00e8s diff\u00e9rents de ceux auxquels nous sommes habitu\u00e9s. La distance du transport optimal est la distance de Wasserstein (introduite en 1969 par le math\u00e9maticien russe Leonid Wasserstein).<\/p>\n<p><img loading=\"lazy\" decoding=\"async\" class=\"aligncenter wp-image-3226\" src=\"http:\/\/variances.eu\/wp-content\/uploads\/2018\/05\/4-e1527155488501-1024x725.png\" alt=\"\" width=\"600\" height=\"425\" srcset=\"https:\/\/variances.eu\/wp-content\/uploads\/2018\/05\/4-e1527155488501-1024x725.png 1024w, https:\/\/variances.eu\/wp-content\/uploads\/2018\/05\/4-e1527155488501-300x212.png 300w, https:\/\/variances.eu\/wp-content\/uploads\/2018\/05\/4-e1527155488501-600x425.png 600w, https:\/\/variances.eu\/wp-content\/uploads\/2018\/05\/4-e1527155488501-400x284.png 400w, https:\/\/variances.eu\/wp-content\/uploads\/2018\/05\/4-e1527155488501-1080x765.png 1080w, https:\/\/variances.eu\/wp-content\/uploads\/2018\/05\/4-e1527155488501-1320x935.png 1320w\" sizes=\"(max-width: 600px) 100vw, 600px\" \/><\/p>\n<p>Les graphes ci-dessus illustrent la transition entre deux mesures de probabilit\u00e9, avec les calculs d\u2019interpolation &#8211; une innovation de Robert McCann (universit\u00e9 de Toronto) &#8211; permettant d\u2019obtenir une s\u00e9rie de mesures de probabilit\u00e9 reliant la mesure initiale et la mesure finale.<\/p>\n<p>Nous sommes loin d\u2019Euclide, pour qui la moyenne de deux mesures de probabilit\u00e9 est simplement leur somme divis\u00e9e par deux, approche strictement lin\u00e9aire.<\/p>\n<p>Le transport optimal fait bouger la masse de mani\u00e8re lat\u00e9rale \u00e0 travers l\u2019espace d\u2019observation, ce qui conduit \u00e0 des interpolations tr\u00e8s diff\u00e9rentes. Imaginons que nous disposons de trois mesures de probabilit\u00e9 donnant de l\u2019information sur un ph\u00e9nom\u00e8ne physique, et que nous voulions les agr\u00e9ger, les fusionner, probl\u00e9matique tr\u00e8s courante. La mani\u00e8re na\u00efve est de les sommer et de diviser par trois.<\/p>\n<p><img loading=\"lazy\" decoding=\"async\" class=\"aligncenter wp-image-3228\" src=\"http:\/\/variances.eu\/wp-content\/uploads\/2018\/05\/5-1024x475.png\" alt=\"\" width=\"600\" height=\"278\" srcset=\"https:\/\/variances.eu\/wp-content\/uploads\/2018\/05\/5.png 1024w, https:\/\/variances.eu\/wp-content\/uploads\/2018\/05\/5-300x139.png 300w, https:\/\/variances.eu\/wp-content\/uploads\/2018\/05\/5-600x278.png 600w\" sizes=\"(max-width: 600px) 100vw, 600px\" \/><\/p>\n<p>L\u2019interpolation en transport optimal consiste \u00e0 d\u00e9placer la masse. Cette interpolation a du sens en particulier pour tout ce qui est graphique ou image. L\u2019id\u00e9e est de faire l\u2019interpolation de formes de mani\u00e8re totalement agnostique, c\u2019est-\u00e0-dire sans param\u00e9trer une forme. La th\u00e9orie du transport optimal m\u00e8ne \u00e0 une sorte d\u2019interpolation entre ces trois formes alors qu\u2019aucune connaissance <em>a priori<\/em> n\u2019a \u00e9t\u00e9 apport\u00e9e sur les formes. La seule information utilis\u00e9e est la mesure de la distance entre les pixels.<\/p>\n<p><img loading=\"lazy\" decoding=\"async\" class=\"aligncenter wp-image-3229\" src=\"http:\/\/variances.eu\/wp-content\/uploads\/2018\/05\/6-1-1024x591.jpg\" alt=\"\" width=\"600\" height=\"346\" srcset=\"https:\/\/variances.eu\/wp-content\/uploads\/2018\/05\/6-1-1024x591.jpg 1024w, https:\/\/variances.eu\/wp-content\/uploads\/2018\/05\/6-1-300x173.jpg 300w, https:\/\/variances.eu\/wp-content\/uploads\/2018\/05\/6-1-600x346.jpg 600w, https:\/\/variances.eu\/wp-content\/uploads\/2018\/05\/6-1-1080x623.jpg 1080w, https:\/\/variances.eu\/wp-content\/uploads\/2018\/05\/6-1-1320x761.jpg 1320w, https:\/\/variances.eu\/wp-content\/uploads\/2018\/05\/6-1.jpg 1427w\" sizes=\"(max-width: 600px) 100vw, 600px\" \/><\/p>\n<p>Un peu de math\u00e9matiques\u00a0: quel est le probl\u00e8me initial de Monge, \u00e0 l\u2019origine du transport optimal\u00a0? Monge a expos\u00e9 ses id\u00e9es de transport au XVIIIe si\u00e8cle, \u00e0 partir de la question suivante\u00a0: disposant d\u2019un tas de sable, d\u2019un certain volume, et d\u2019un trou, quelle est la mani\u00e8re optimale pour d\u00e9placer le tas de sable vers le trou et le remplir\u00a0?<\/p>\n<p>Au XX<sup>\u00e8me<\/sup> si\u00e8cle, il aurait suffi de prendre un tracteur et de pousser le sable vers le trou sans se poser la question de l\u2019optimalit\u00e9 quant \u00e0 la mani\u00e8re de r\u00e9aliser ce transport. En 1781, le probl\u00e8me est bien s\u00fbr compl\u00e8tement diff\u00e9rent car seul un ouvrier peut intervenir, muni de sa seule pelle, cet ouvrier devant transporter la masse de sable \u00e9l\u00e9ment par \u00e9l\u00e9ment et d\u2019un endroit \u00e0 l\u2019autre.<\/p>\n<p>Le probl\u00e8me de Monge consiste \u00e0 demander \u00e0 un ouvrier muni d\u2019une pelle de transporter la masse de sable \u03bc, situ\u00e9e \u00e0 un endroit E couvrant divers points x, en un autre point y = T(x), en lui pr\u00e9cisant tous les points par lesquels l\u2019ouvrier doit passer et le point T(x) o\u00f9 il doit amener cette masse.<\/p>\n<p><img loading=\"lazy\" decoding=\"async\" class=\"aligncenter wp-image-3230\" src=\"http:\/\/variances.eu\/wp-content\/uploads\/2018\/05\/7-e1527162996406-1024x725.png\" alt=\"\" width=\"600\" height=\"425\" srcset=\"https:\/\/variances.eu\/wp-content\/uploads\/2018\/05\/7-e1527162996406-1024x725.png 1024w, https:\/\/variances.eu\/wp-content\/uploads\/2018\/05\/7-e1527162996406-300x212.png 300w, https:\/\/variances.eu\/wp-content\/uploads\/2018\/05\/7-e1527162996406-600x425.png 600w, https:\/\/variances.eu\/wp-content\/uploads\/2018\/05\/7-e1527162996406-400x284.png 400w, https:\/\/variances.eu\/wp-content\/uploads\/2018\/05\/7-e1527162996406-1080x765.png 1080w, https:\/\/variances.eu\/wp-content\/uploads\/2018\/05\/7-e1527162996406-1320x935.png 1320w\" sizes=\"(max-width: 600px) 100vw, 600px\" \/><\/p>\n<p>Intuitivement, le travail fourni par l\u2019ouvrier sera proportionnel \u00e0 la distance D entre les points x et y = T(x). De m\u00eame, si la masse est importante, le travail \u00e0 fournir sera \u00e9galement proportionnel au nombre \u03bc de kilos de sable \u00e0 transporter. Pour l\u2019ouvrier, le \u00ab\u00a0co\u00fbt\u00a0\u00bb W du d\u00e9placement de la pellet\u00e9e x sera donc \u03bc(x).D(x, T(x)).<\/p>\n<p>Quelles instructions donner \u00e0 l\u2019ouvrier pour qu\u2019il puisse faire cette allocation\u00a0?<\/p>\n<p>En formalisant math\u00e9matiquement ceci, si B est une partie du trou \u00e0 combler, i.e. un segment de l\u2019espace d\u2019arriv\u00e9e, l\u2019image inverse de B est l\u2019ensemble des x tels que T(x) \u03f5 B. Ainsi, si selon le plan donn\u00e9 \u00e0 l\u2019ouvrier, tout le sable amen\u00e9 dans le segment B provient de trois segments A<sub>1<\/sub>, A<sub>2<\/sub>, A<sub>3<\/sub> du tas de sable, le volume n\u00e9cessaire pour combler le segment B, de volume \u03bd(B), doit \u00eatre \u00e9gal au volume de sable transport\u00e9 des segments A1, A2, A3. En langage probabiliste, la mesure des trois segments A<sub>1<\/sub>, A<sub>2<\/sub>, A<sub>3<\/sub> est \u00e9gale \u00e0 la mesure du segment objectif B, et ce r\u00e9sultat doit \u00eatre vrai pour tous les segments B possibles\u00a0: pour tout B, \u03bd(B) = \u03bc(A<sub>1<\/sub>) + \u03bc(A<sub>2<\/sub>) + \u03bc(A<sub>3<\/sub>).<\/p>\n<p>Ceci signifie que le probl\u00e8me de Monge peut \u00eatre traduit de la fa\u00e7on suivante\u00a0: d\u00e9terminer une application T\u00a0passant de lieu \u00e0 lieu, et v\u00e9rifiant l\u2019\u00e9galit\u00e9 ci-dessus pour tout segment B. T est dit envoyer de la masse de lieu \u00e0 lieu.<\/p>\n<p>Le probl\u00e8me de Monge est tr\u00e8s difficile \u00e0 r\u00e9soudre, bien qu\u2019il y ait des simplifications possibles. Des progr\u00e8s r\u00e9cents, autour de 2010, ont \u00e9t\u00e9 r\u00e9alis\u00e9s. J\u2019ai apport\u00e9 une petite pierre \u00e0 cet \u00e9difice en 2013 (<em>Sinkhorn distances\u00a0: lightspeed computation of optimal transportation distances<\/em>), en proposant une technique num\u00e9rique qui fonctionne bien et permet d\u2019acc\u00e9l\u00e9rer le calcul du transport optimal. En effet, la question actuelle est comment utiliser la puissance de transport en science des donn\u00e9es, comme une fonction de perte, ce qui soul\u00e8ve des questions de calcul importantes. Les deux questions, mod\u00e8le g\u00e9n\u00e9ratif et transport optimal, sont clairement imbriqu\u00e9es. Ce qu\u2019on essaie de faire actuellement est de calculer le gradient de la distance de Wasserstein par rapport aux param\u00e8tres, id\u00e9e vraiment tr\u00e8s r\u00e9cente en statistique th\u00e9orique, car envisag\u00e9e en 2006. Sur ce th\u00e8me, depuis deux ans, de nombreuses publications ont eu lieu, d\u00e9j\u00e0 \u00e9voqu\u00e9es.<\/p>\n<div id=\"attachment_3231\" style=\"width: 460px\" class=\"wp-caption aligncenter\"><img loading=\"lazy\" decoding=\"async\" aria-describedby=\"caption-attachment-3231\" class=\"wp-image-3231\" src=\"http:\/\/variances.eu\/wp-content\/uploads\/2018\/05\/8.jpg\" alt=\"\" width=\"450\" height=\"298\" srcset=\"https:\/\/variances.eu\/wp-content\/uploads\/2018\/05\/8.jpg 584w, https:\/\/variances.eu\/wp-content\/uploads\/2018\/05\/8-300x199.jpg 300w\" sizes=\"(max-width: 450px) 100vw, 450px\" \/><p id=\"caption-attachment-3231\" class=\"wp-caption-text\">Tableau A : base MNIST<\/p><\/div>\n<div id=\"attachment_3232\" style=\"width: 460px\" class=\"wp-caption aligncenter\"><img loading=\"lazy\" decoding=\"async\" aria-describedby=\"caption-attachment-3232\" class=\"wp-image-3232\" src=\"http:\/\/variances.eu\/wp-content\/uploads\/2018\/05\/9.png\" alt=\"\" width=\"450\" height=\"446\" srcset=\"https:\/\/variances.eu\/wp-content\/uploads\/2018\/05\/9.png 648w, https:\/\/variances.eu\/wp-content\/uploads\/2018\/05\/9-150x150.png 150w, https:\/\/variances.eu\/wp-content\/uploads\/2018\/05\/9-300x297.png 300w, https:\/\/variances.eu\/wp-content\/uploads\/2018\/05\/9-600x594.png 600w\" sizes=\"(max-width: 450px) 100vw, 450px\" \/><p id=\"caption-attachment-3232\" class=\"wp-caption-text\">Tableau B : reconstitution<\/p><\/div>\n<p>Une application simple de ce qui pr\u00e9c\u00e8de. De la base de donn\u00e9es MNIST (<em>Modified National Institute of Standards and Technology<\/em>, base de donn\u00e9es constitu\u00e9e de chiffres \u00e9crits \u00e0 la main, tr\u00e8s utilis\u00e9e en apprentissage automatique) est issue le tableau A. On cherche une fonction \u00e0 valeurs dans l\u2019espace latent et qui engendre des pixels ; le tableau B en fournit les r\u00e9sultats. L\u2019espace latent est [0,1]\u00b2 , donc comporte deux coordonn\u00e9es. Ces deux seules coordonn\u00e9es sont utilis\u00e9es pour g\u00e9n\u00e9rer des chiffres et on retrouve pourtant toute la vari\u00e9t\u00e9 de chiffres.<\/p>\n<p>Ces techniques ont \u00e9t\u00e9 appliqu\u00e9es \u00e0 de vraies images. On peut engendrer une base d\u2019images de chiens, non pas prises par un appareil photo, mais artificiellement cr\u00e9\u00e9es par ordinateur.<\/p>\n<p><img loading=\"lazy\" decoding=\"async\" class=\"aligncenter wp-image-3233\" src=\"http:\/\/variances.eu\/wp-content\/uploads\/2018\/05\/10-1024x342.jpg\" alt=\"\" width=\"600\" height=\"201\" srcset=\"https:\/\/variances.eu\/wp-content\/uploads\/2018\/05\/10-1024x342.jpg 1024w, https:\/\/variances.eu\/wp-content\/uploads\/2018\/05\/10-300x100.jpg 300w, https:\/\/variances.eu\/wp-content\/uploads\/2018\/05\/10-600x201.jpg 600w, https:\/\/variances.eu\/wp-content\/uploads\/2018\/05\/10.jpg 1056w\" sizes=\"(max-width: 600px) 100vw, 600px\" \/><\/p>\n<p>Au niveau des femmes et hommes, des travaux de recherche r\u00e9cents, \u00e0 base de mod\u00e8les g\u00e9n\u00e9ratifs, conduisent \u00e0 des r\u00e9sultats impressionnants de NVIDIA, soci\u00e9t\u00e9 am\u00e9ricaine fournisseur de processeurs, cartes et puces graphiques. M\u00eame si, comme pour les chiens, tout n\u2019est pas parfait, les douze photos ci-dessus, inimaginables il y a quatre ou cinq ans, montrent des \u00eatres humains qui n\u2019existent pas\u00a0; ces visages sont totalement synth\u00e9tiques et artificiels, obtenus en passant d\u2019une image pas tr\u00e8s fine \u00e0 des images de plus en plus fines avec des techniques d\u2019images modifi\u00e9es.<\/p>\n<p>Mod\u00e8les g\u00e9n\u00e9ratifs et transport optimal sont vraiment de beaux exemples r\u00e9ussis de transfert technologique.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Expos\u00e9 de Marco Cuturi, Professeur ENSAE-CREST (Retranscription de Philippe Tassi) Cet expos\u00e9 constitue une suite tout \u00e0 fait coh\u00e9rente \u00e0 celui du professeur Saporta, car centr\u00e9 sur l\u2019apprentissage non supervis\u00e9. Mon propos abordera deux th\u00e9matiques : d\u2019une part les mod\u00e8les g\u00e9n\u00e9ratifs, en anglais les generative models, qui font actuellement un quart des interventions dans les [&hellip;]<\/p>\n","protected":false},"author":153,"featured_media":3237,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_et_pb_use_builder":"","_et_pb_old_content":"","_et_gb_content_width":"","_exactmetrics_skip_tracking":false,"_exactmetrics_sitenote_active":false,"_exactmetrics_sitenote_note":"","_exactmetrics_sitenote_category":0,"footnotes":""},"categories":[164,133],"tags":[],"class_list":["post-3221","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-intelligence-artificielle","category-themes","et-has-post-format-content","et_post_format-et-post-format-standard"],"_links":{"self":[{"href":"https:\/\/variances.eu\/index.php?rest_route=\/wp\/v2\/posts\/3221","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/variances.eu\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/variances.eu\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/variances.eu\/index.php?rest_route=\/wp\/v2\/users\/153"}],"replies":[{"embeddable":true,"href":"https:\/\/variances.eu\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=3221"}],"version-history":[{"count":0,"href":"https:\/\/variances.eu\/index.php?rest_route=\/wp\/v2\/posts\/3221\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/variances.eu\/index.php?rest_route=\/wp\/v2\/media\/3237"}],"wp:attachment":[{"href":"https:\/\/variances.eu\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=3221"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/variances.eu\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=3221"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/variances.eu\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=3221"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}