L’arrivée du monde numérique au milieu des années 1990, son déploiement dans pratiquement tous les secteurs d’activités et sa vitesse de diffusion auprès des ménages dans le monde entier, ont eu pour effet, pour le statisticien, la mise à disposition de quantités inédites de données, notamment celles provenant des réseaux de communication et du web. Même si historiquement la statistique s’est développée au fil des siècles sous le paradigme de l’exhaustivité (par exemple, les recensements démographiques, agricoles, industriels), en dépit de fortes limites d’observation, le XXèmesiècle a vu la statistique moderne émerger dans le contexte de la rareté des données, illustré par le paradigme des données d’échantillonnage depuis l’exposé fondateur d’Anders N. Kiaer en 1895 et la théorie de Jerzy Neyman en 1934.

Les données nombreuses de l’univers numérique apportent de nouveaux défis au statisticien, qui doit leur donner du sens en oubliant le modèle statistique ou probabiliste qui les a engendrées. Tels sont les objectifs du learning, de l’apprentissage statistique. Le défi est d’autant plus complexe à relever que le monde numérique est celui du « temps réel », et l’apport d’autres disciplines comme l’informatique et l’optimisation est nécessaire pour stocker et traiter le plus rapidement possible les quantités de données disponibles.

Cet ouvrage, publié aux Editions Technip (Paris), a été coordonné par Myriam Maumy-Bertrand, Gilbert Saporta et Christine Thomas-Agnan. Il est issu de la collaboration réussie de spécialistes réputés, dont Sylvain Arlot (Université Paris Sud), Philippe Besse (INSA de Toulouse), Stéphane Canu (INSA de Rouen), Jean-Michel Poggi (Université Paris Descartes & LMO, Université Paris-Sud Orsay), Emmanuel Viennet (Université Paris 13) et Nathalie Villa-Vialaneix (INRA, Toulouse).

Les auteurs ont été les acteurs des 17èmes Journées d’étude en statistique organisées par la Société Française de Statistique (SFDS). Héritière de la Société de Statistique de Paris (SSP) fondée en 1860, de l’Association pour la Statistique et ses Utilisations (ASU) fondée en 1969 et de la Société de Statistique de France (SSF) fondée en 1976, dont la fusion lui a donné naissance en 1997, la SFDS a pour objectif de favoriser les développements de la statistique et d’assurer la représentation de l’ensemble des utilisateurs, enseignants et chercheurs.

Dans ce livre, le lecteur trouvera une synthèse des fondements et des travaux les plus récents dans le domaine de l’apprentissage statistique, en distinguant apprentissage supervisé ou non supervisé, avec des applications dans des domaines variés.

Il est structuré en cinq chapitres. Le premier contient une rapide histoire récente (XXème siècle) ; le chapitre 2 présente les « Fondamentaux de l’apprentissage statistique » ; puis la validation croisée fait l’objet du chapitre 3. Le chapitre 4 traite du risque et du choix de modèle en apprentissage, illustré par de nombreux exemples. Et pour terminer, un dernier chapitre aborde une introduction à l’optimisation pour l’apprentissage statistique, montrant bien l’intérêt de la transversalité et la complémentarité des approches.


*« Apprentissage statistique et données massives » de Myriam Maumy-Bertrand (Maître de Conférences à l’Université de Strasbourg), Gilbert Saporta (Professeur émérite au CNAM) et Christine Thomas-Agnan (Professeure à l’université Toulouse 1), aux éditions Technip

Philippe Tassi