Partagez cette page :

Deuxième partie : de la naissance de l’informatique au Deep Learning

Dans une première partie, nous avons balayé pratiquement un millénaire, du catalan Ramon Llull aux travaux de Norbert Wiener. Cette seconde partie nous conduira à l’actualité du Learning, en partant de la naissance de l’informatique.

Le connexionnisme et la naissance de l’informatique

John von Neumann

Le lien avec la naissance de l’informatique est très fort. Un rôle majeur est joué par Janos Neumann, ou John von Neumann (1903 – 1957). Mathématicien et physicien hongrois – il naît à Budapest – puis américain, von Neumann est bien connu pour ses travaux dans des domaines diversifiés, dont la théorie de la décision. Son travail de 1944, Theory of games and economic behaviour, co-écrit avec Oskar Morgenstern, est plus que précurseur.

John von Neumann

Entre autres, von Neumann est considéré comme le père de l’architecture des ordinateurs. Une vision attentive du timbre ci-dessus, édité par les postes hongroises, permet de reconnaître un schéma de circuit : il représente le premier ordinateur conçu par Von Neumann, sous l’acronyme EDVAC (Electronic Discrete Variable Automatic Computer).

L’EDVAC est l’un des tout premiers ordinateurs électroniques (1949). Il opère en mode binaire contrairement à l’ENIAC (Electronic Numerical Integrator And Computer, 1946), qui travaille en décimal, et est souvent mentionné dans les cours d’histoire de l’informatique.

Les caractéristiques de l’EDVAC : addition, soustraction et multiplication automatiques, division programmable, le tout avec un contrôle automatisé et une capacité-mémoire de 1000 mots de 44 bits, qui sera étendue par la suite à 1024 mots. Sa mémoire aurait en termes actuels une capacité de 5,5 ko. Il est composé de près de 6 000 tubes à vide et 12 000 diodes, consomme 56 kW, occupe une surface de 45,5 m2 et pèse 7,85 tonnes. Pour le faire fonctionner, trois équipes de trente personnes se succédant en continu sont nécessaires.

Ci-dessus, la page de garde d’un rapport sur l’EDVAC datant de 1945, signé uniquement par John von Neumann. Il est clair qu’il n’a pas été tout seul dans la conception de l’EDVAC, ce qui a créé un certain mécontentement chez ses « partenaires ». Dans ce rapport est décrit ce que devait être un ordinateur avec la fameuse architecture de von Neumann, avec à la fois le calculateur et les programmes enregistrés. Le seul article mentionné par von Neumann est celui de McCulloch et Pitts, qui préconisaient la construction d’un ordinateur dans lequel les calculateurs sont les neurones mis en réseau.

Alan Turing

Alan Turing

Un rapport d’Alan Turing (1912 – 1954), intitulé Intelligent Machinery, écrit en 1948, a été redécouvert vingt ans plus tard, en 1968. Puisque Turing travaillait beaucoup pour les services secrets, nombreuses sont ses publications qui ont été classées « secret défense », et, avec le temps, déclassifiées. Deux chercheurs néo-zélandais, Jack Copeland et Diane Proudfoot, ont écrit plusieurs articles sur Alan Turing (voir, par exemple, Alan Turing : father of the modern computer, The Rutherford Journal, 2011). Selon ces deux biographes, Turing a certainement entendu parler des travaux de McCulloch et Pitts par von Neumann, mais ne les a pas cités. Il n’était pas convaincu par McCulloch, allant même jusqu’à le considérer comme un charlatan. Jugement probablement excessif. C’est une question ouverte de savoir si les avancées de McCulloch et Pitts ont eu une quelconque influence sur les travaux de Turing. Mais il est reconnu que ces derniers connaissaient les travaux de Turing.

Le Perceptron de Frank Rosenblatt

Quelle que soit l’inventivité de tous les grands noms cités, l’essentiel consiste à faire ou à faire faire des calculs. Les réseaux de neurones et l’apprentissage sont encore loin, avec leur principe de présenter des exemples et d’essayer d’apprendre comment il est possible de prédire.

Frank Rosenblatt

La rupture arrive avec les travaux de Frank Rosenblatt (1928 – 1971), et sa publication de 1958 « The Perceptron : a probabilistic model for information storage and organization in the brain », dans Psychological Review. Il est le concepteur-inventeur du Perceptron, la première machine à apprendre, comportant un système de rétroaction : l’algorithme de rétropropagation du gradient.

Le Perceptron n’est pas seulement un concept, mais aussi une machine réelle, représentée ci-après.

 

Le Mark 1 Perceptron est créé en 1957-58 selon les principes des réseaux multicouches à réponse linéaire à seuil. Il s’agit d’un classifieur visuel avec une couche d’entrée de 400 cellules photoélectriques selon une grille 20×20 simulant une rétine, une couche intermédiaire de 512 unités, et une couche de sortie de 8 unités. Le Mark 1 Perceptron est visible au Smithsonian Institute à Washington.

L’algorithme d’apprentissage présentait certaines limites, et donc il y avait des tâches impossibles à exécuter. Partant de ce constat d’impossibilité, Marvin Minsky et Seymour Papert ont écrit un ouvrage « Perceptrons » publié en 1969. Beaucoup de lecteurs se sont arrêtés à cette mise en évidence des limites du Perceptron, alors que les auteurs présentaient des solutions, avec des réseaux de neurones en plusieurs couches, et des fonctions d’activation non plus linéaires mais logistiques.

Rosenblatt est mort le jour de son 43ème anniversaire, dans un accident de bateau ; sa contribution est telle qu’il est entré dans la postérité. En hommage, l’IEEE (Institute of Electrical and Electronics Engineers) a créé en 2004 le prix Rosenblatt, attribué, par exemple, en 2008 à Teuvo Kohonen, et en 2012 à Vladimir Vapnik.

Les hivers

La littérature consacrée aux réseaux de neurones fait référence aux deux hivers de l’IA.

Le premier hiver – 1970 – 1980 – suit le livre de Minsky et Papert et ses mauvaises ou incomplètes lectures, ayant pour conséquence « ça ne marchera jamais » et l’arrêt des subventions.

Ce premier hiver a été suivi d’un printemps, dans les années 80, plutôt dans les systèmes experts, et aussi grâce à la renaissance des réseaux de neurones due à l’algorithme de rétropropagation du gradient et les travaux de Paul Werbos (né en 1947) et David Rumelhart (1942 – 2011).

Deuxième hiver à partir de 1987. Cette période est marquée par un intérêt déclinant pour les réseaux neuronaux, en raison de capacités insuffisantes, de difficultés de codage, et de grande complexité de mise en œuvre. En même temps, d’autres développements prennent le dessus, comme les SVM (Support Vector Machine, ou Machine à vecteur de support) ou les forêts aléatoires, etc. De 1993 à 2001, l’Intelligence Artificielle passe en retrait, les mots prenant le même chemin que cybernétique dans le vocabulaire scientifique.

Vapnik et Chernovenkis

A. Chernovenkis                                                      V. Vapnik

De 1960 aux années 90, deux célèbres chercheurs russes, Vladimir Vapnik et Alexey Chervonenkis, construisent la théorie statistique de l’apprentissage. Depuis 2004, leurs articles (dont « On uniform convergence of the frequencies of events to their probabilities », in Theory of Probability and its Applications, 1971) et le livre de Vapnik « The nature of statistical learning theory » (2000, Springer) apportent un éclairage nouveau.

Après une brillante carrière académique, Vapnik a rejoint Facebook en 2014 ; la même année, Chervonenkis meurt de froid en se perdant dans la forêt d’un parc national proche de Moscou.

Apprentissage ou Statistique ?

Beaucoup de débats ou de controverses ont existé ou existent encore autour des mots apprentissage et statistique. Pendant des années, les statisticiens ont eu du mal à accepter la méthode de l’apprentissage, notamment parce que ce dernier fait de la prédiction sans modélisation au sens classique. Nous retrouvons là le célèbre adage : il est possible de prévoir sans comprendre. C’est par exemple le point de vue de Leo Breiman (1928 – 2005) en 2001, ou de Vapnik qui, en 2006, stipule que l’on peut trouver des modèles parfois bien meilleurs en évitant délibérément de reproduire des mécanismes qui ont produit des données, parce que l’objectif unique est la prévision et la prédiction.

Malgré l’hiver de l’IA et les débats, un certain nombre de statisticiens se sont intéressés assez tôt aux techniques des réseaux de neurones : Vladimir Cherkassky, Jerome Friedman et Harry Weschler publient en 1994 « From Statistics to Neural networks » , et peu de temps après, en France, suite à un colloque organisé par le Club Modulad, apparaît le livre « Statistique et méthodes neuronales » (Sylvie Thiria, Yves Lechevallier, Olivier Gascuel, Stéphane Canu ; Dunod, 1997).

Ces approches d’apprentissage ont apporté un élément novateur et important : la validation, avec l’idée qu’on ne peut pas avoir un modèle de prévision sans valider ces prévisions par des données externes et donc par un usage systématique de la séparation « ensemble d’apprentissage »-« ensemble de test ». Cela semble maintenant évident. Les précurseurs furent, entre autres, Paul Horst en 1941, Peter Lachenbruch et Ray Mickey, « Estimation of error rates in discriminant analysis », Technometrics, 1968, ou Mervyn Stone, « Cross-validation choice and assessment of statistical predictions », Journal of Royal Statistical Society, 1974.

En France, Françoise Fogelman Soulié a été à l’avant-garde du développement du connexionnisme et de l’apprentissage. Retour en arrière : elle était la directrice de thèse de Yann LeCun. Dans les années 80, les physiciens ont également joué un grand rôle dans le développement des réseaux de neurones ; il faut citer, en particulier, un article de Marc Mézard et Werner Krauth de 1988. Marc Mézard est depuis 2012 le directeur de l’Ecole Normale Supérieure.

Le mot start-up n’était pas à la mode, ce qui n’a pas empêché l’émergence de sociétés comme Mimetics, en 1991. Il faut reconnaître qu’en France, il y a toujours eu des chercheurs en Intelligence Artificielle, même dans les périodes hivernales. Une illustration est fournie par le colloque de Cerisy de 1981 intitulé « L’auto-organisation, de la physique au politique », très multi-disciplinaire, avec la participation de philosophes ou de sociologues.

Et, après 2008 arrive le Deep Learning, l’apprentissage profond. Là, il ne s’agit alors plus d’histoire, mais de l’actualité.

 

Relire la première partie : des origines à Norbert Wiener