Entretien avec Philippe Tassi, avril 2017


Philippe Tassi : Jean-Louis, vous avez une carrière brillante de chercheur à l’INRA, et depuis 5 ans vous êtes à l’IMAG de Montpellier. En janvier 2014, vous avez présenté une communication passionnante sur une approche bayésienne de la prévision et du classement en football lors du premier colloque organisé sur le thème du sport par la Société Française de Statistique. Pour quelles raisons en êtes-vous venu à vous intéresser à la statistique du sport ?

Jean-Louis Foulley : Il y eut d’abord la nécessité de faire quelque chose après une retraite forcée et probablement une attirance pour quelque chose de vraiment différent, une sorte de défi de débutant ainsi que la curiosité de s’attaquer à un domaine insolite pour le monde de la recherche, du moins en France.

PT : Mais dans quel contexte abordiez vous cette réorientation ?

JLF : En fait, le contexte était et reste toujours très favorable. Tout le monde s’accorde à constater que le sport est un secteur en pleine expansion pour de multiples raisons à la fois économiques et sociales. Il est aussi un domaine de prédilection pour le numérique et la quantification qu’il s’agisse de statistiques descriptives, de pronostics, de paris, de cotes, de classements, d’évaluations ou de diagnostics en tout genre.

Tout d’abord, il y a, et il y aura de plus en plus, pléthore de données concernant à la fois les performances des sportifs, mais aussi celles relatives au déroulement des épreuves (données vidéo notamment), à la préparation physique et au suivi des athlètes pendant et hors compétition, au coaching et à la stratégie de jeu ou de compétition.

L’abondance de données de qualité permet de mettre en œuvre des analyses quantitatives pour lesquelles les mathématiques, et notamment la statistique, constituent des outils de choix en vue de la description et de la modélisation des phénomènes sous-jacents. La palette des méthodologies pouvant être mises en jeu est elle-même très vaste, allant de la théorie des processus stochastiques aux modèles hiérarchiques bayésiens complexes en passant par l’analyse des données, l’analyse de réseaux via les modèles graphiques ainsi que les techniques dites de machine learning. La statistique et le sport devraient donc faire bon ménage pourvu qu’on s’y intéresse sans trop d’arrière-pensées.

PT : Qu’en est-il du monde de la Recherche à cet égard ?

JLF : Certains pays comme les Etats-Unis, le Royaume Uni et les Pays-Bas, ont depuis longtemps une forte implication de leurs unités de recherche en statistique dans le domaine du sport. Ils sont suivis maintenant par d’autres en Europe comme l’Allemagne, l’Italie et l’Espagne. En France, l’engagement des statisticiens se manifeste pour l’instant surtout par des initiatives individuelles, comme les exposés de la journée « Quand la statistique a rendez vous avec le sport » que vous avez mentionnée dans votre première question, et publiés dans le journal de la SFdS en 2015, volume 156.

Je pense en outre à la place accordée au domaine sportif dans les sociétés académiques de statistique comme c’est le cas par exemple de la section Sport de l’American Statistical Association (ASA) depuis 1992 et du comité spécialisé Statistique Sportive de l’International Statistical Institute (ISI). Preuve en est aussi l’existence de revues spécialisées telles que le « Journal of Quantitative Analysis of Sports», première revue qui publie des travaux de recherche ou de vulgarisation à nette orientation statistique touchant la plupart des disciplines sportives qu’elles soient individuelles ou collectives et qui s’étendent aussi à d’autres sciences comme l’économie, le management, la psychologie, intéressées par le sujet. Par ailleurs, certaines revues généralistes telles que « Chance », « The American Statistician »  et « Significance » consacrent également une place non négligeable à la littérature sportive qu’il s’agisse d’applications de certaines méthodes ou de questions posées à l’occasion de grandes manifestations sportives comme les JO, la Coupe du monde de football, les Play-offs de NBA, etc…. A cela s’ajoutent nombre de sites internet dédiés au sport présentant principalement des statistiques détaillées sur les compétitions et les athlètes qui y participent.

PT : Vous venez d’évoquer les facteurs de l’offre statistique, qu’en est-il de la demande ?

JLF : Pour répondre à votre question il faut replacer le sport et les diverses activités qui s’y rattachent dans leur contexte économique et social sachant que c’est l’ajustement entre l’offre et la demande qui va remodeler le profil des « data scientists » officiant dans le sport. L’ouvrage d’Andy Hyeans « Sport Data Revolution » aborde cette question en détail.

Pour schématiser, je distinguerai le sport de prestige qui requiert des investissements importants en termes de matériel, d’équipements, d’infrastructures et qui génère aussi en retour des retombées considérables au niveau des retransmissions TV et du marché publicitaire. Là, se manifeste une demande non seulement pour des pronostics et des classements en tout genre, mais aussi pour du profilage d’équipes, de joueurs et de stratégies de jeu et de coaching ainsi que de suivi physiologique et biomécanique des athlètes.

En outre, le sport de haut niveau comme celui de loisir fait de plus en plus appel à d’équipements connectés tels les smartphones, GPS, bracelets, montres, maillots, raquettes, chaussures ; ils nécessitent des logiciels d’applications intelligents qui s’appuient sur des concepts et modèles statistiques.

Une autre facette du sport qui demande un apport de la statistique consiste en l’étude des techniques de détection directe ou indirecte des tricheries et notamment du dopage et de ses effets sur les performances et la santé, et plus généralement en la modélisation des mécanismes de physiologie sportive. Il faut suivre, par exemple, l’association AFT « Athletes for Transparency ».

Enfin, il faut bien admettre que le sport a la vertu de pouvoir rassembler au-delà des frontières disciplinaires et sociales habituelles et ce n’est pas là un de ses moindres mérites.

PT : Voilà un panorama bien fourni des applications de la statistique. Mais vous-même dans quel domaine vous êtes-vous spécialisé ?

JLF : Le qualificatif de spécialisation est un peu trop fort car mes prétentions étaient beaucoup plus modestes. Etudiant, j’ai joué au basket et j’en ai gardé une attirance naturelle vers les sports collectifs de ballon. Ayant eu aussi la chance d’avoir pu bénéficier des enseignements en probabilité et statistique théorique et appliquée, notamment à la génétique, de Guy Lefort, d’Albert Jacquard, de Gustave Malécot et de Charles Henderson et de ses élèves comme Larry Schaeffer ou disciples tel Daniel Gianola, je me suis naturellement orienté vers tout ce qui concerne l’évaluation, le classement d’équipes et la prédiction de résultats de matches et compétitions en me focalisant d’abord sur le football. Qui n’a pas vibré lors de la demi-finale France-Allemagne de Séville en 1982 ou pour la victoire de la France en finale contre le Brésil au stade de France en 1998 !

PT : Concrètement, qu’en est-il des applications de la statistique aux compétitions de football ?

JLF : Je me suis jeté à l’eau en m’attaquant en septembre 2012 à l’analyse de la phase finale du championnat d’Europe des nations, compétition très relevée en l’occurrence puisqu’elle a opposé en finale l’Espagne, vainqueur de la coupe du monde 2010 à l’Italie, finaliste en 2008. J’avais noté au passage que l’UEFA ne fournissait ni classement général des 16 équipes qui participaient à cette phase finale de la compétition, ni même de podium des trois premiers comme cela se fait par exemple dans d’autres sports comme le handball.

Curieusement le podium auquel mes calculs aboutissaient était formé du vainqueur l’Espagne, mais aussi en deuxième et troisième positions de l’Allemagne et du Portugal, équipes demi-finalistes. L’Italie ne s’était qualifiée qu’aux tirs aux buts en quarts de finales après un maigre 0-0 contre l’Angleterre et n’avait terminé qu’en second rang de son groupe, devancée par l’Espagne. L’établissement d’un simple classement était donc problématique. Depuis lors, j’ai continué à analyser l’EURO des nations, la coupe du monde ainsi que la ligue des champions, nouveau nom de l’ancienne coupe d’Europe des clubs champions créée en 1955.

Dans ces compétitions, je me suis focalisé sur deux objectifs : le premier est le classement des équipes et le second les pronostics des résultats des matches.

En matière de classement, on dispose à la fois d’évaluations officielles émanant des fédérations UEFA et FIFA ainsi que d’évaluations « privées » publiées par divers sites internet tels que « footballdatabase.com », « clubworldranking.com », « clubelo.com » pour les clubs et «eloratings.net » pour les équipes nationales.

Pour les non-spécialistes, il faut d’abord rappeler que les classements officiels répondent à une triple fonction : d’abord, établir une hiérarchie mondiale des équipes qui offre un billet d’entrée aux diverses phases des compétitions de prestige ; ensuite, déterminer des groupes équilibrés pour les tournois de rondes, comme le « Round Robin », qui constituent la première étape des phases finales des grandes compétitions entre nations ou entre clubs par tirage au sort dans des « chapeaux » de valeur décroissante, lire par exemple Guyon, 2014 ; et enfin servir de variables prédictrices des résultats des matches à venir.

Le classement mondial FIFA, par exemple, est un système à points qui intègre en un produit de facteurs : le nombre de points par match, l’importance du match, le niveau de l’équipe adverse et celui de la zone géographique. L’évaluation finale découle de la moyenne des points obtenus lors des 4 dernières années selon des coefficients décroissants des années les plus récentes aux plus anciennes allant de 1, 0.5, 0.3 à 0.2. Il est vrai que ce classement a été fortement critiqué du fait de son faible pouvoir prédictif comme l’ont montré diverses études notamment celle de McHale et Davis publiée dans le livre d’Albert et Koning en 2008.

PT : Comment cela s’explique-t-il ?

JLF : Il y a plusieurs raisons à cela. Sans rentrer dans le détail, ce type de classement pêche par une mauvaise prise en compte, d’une part, de toutes les confrontations deux à deux entre équipes et, d’autre part, de l’évolution de la valeur des équipes dans le temps. La FIFA a tenté en 2006 de corriger ce dernier point en n’incluant dans son classement que les 4 dernières années au lieu des 8 précédemment. Personnellement, j’y vois aussi le risque encouru par l’usage de formules empiriques compliquées qui ne découlent pas d’une modélisation mathématique claire des observations. Et c’est là où la théorie statistique basée sur des hypothèses précises exprimées par des lois probabilistes peut apporter beaucoup pour rationaliser l’établissement des classements. Le même phénomène a été observé dans d’autres secteurs d’application. Je fais référence ici, par expérience personnelle, au mode d’évaluation des reproducteurs en sélection animale, mode qui n’a pu se dépêtrer d’algorithmes de plus en plus complexes et arbitraires que par l’adoption progressive mais définitive du BLUP, c’est-à-dire du Best Linear Unbiased Prediction d’Henderson développé pour les modèles linéaires à effets aléatoires.

Pour revenir au problème du classement des équipes de football, un premier pas décisif a été effectué par l’application du classement ELO, ainsi nommé en l’honneur du physicien hongrois Arpad Elo (1903-1992) qui l’a inventé et fait adopter dans les années 1960-70 pour les joueurs d’échecs dont il était un grand maître. Cet apport fut décisif dans la rationalisation des classements appliqués aux sports et autres jeux comme l’a bien montré Rémi Coulom dans son article publié dans « Pour La Science » en 2010. La méthode ELO lie la probabilité de victoire P(AB) d’une équipe A sur une équipe B à la différence d’indices de force des deux équipes en présence, D(AB)=S(A)-S(B), selon la fonction de répartition d’une loi de probabilité continue et symétrique. A l’origine, Arpad Elo avait proposé une loi normale, mais elle fut remplacée par la loi logistique P(AB)=1/[1+10**(-D(AB)/s)] où s est un facteur d’échelle fixé au départ à 400 pour le jeu d’échecs. Plus l’écart D(AB) entre A et B est élevé, plus grande est la probabilité de victoire de A. Si la différence est nulle, les deux équipes ont la même chance 0.5 de victoire. La mise à jour des indices des équipes peut se faire à l’issue de chaque rencontre. La variation d’indice S d’une équipe D(S)=K(X-P) est proportionnelle à l’écart entre le résultat observé avec X=1, 0.5 et 0 pour une victoire, un nul et une défaite, et la probabilité de victoire P de cette équipe. On abandonne donc le système d’attribution d’un nombre de points constant relatif à chaque éventualité de résultat comme 3 points pour une victoire, 1 point pour un match nul et 0 pour une défaite, pour passer à un système où l’on gagne d’autant plus de points qu’on bat une équipe mieux classée que soi. Et l’on en perdra si l’on est battu par une équipe moins bien classée comme ce fut le cas pour le match amical qui a récemment opposé la France, équipe A d’indice 1990, à l’Espagne, équipe B d’indice 1966, le 28 mars 2017 au stade de France et qui a vu la défaite de la France 0-2. Comme la France était favorite, avec une probabilité de victoire de 0.67, la France a perdu 20 points et, à l’opposé, l’Espagne en a gagné 20. Pour les spécialistes, il s’agit en fait d’un algorithme d’estimation linéarisée du modèle de Bradley-Terry développé pour les comparaisons deux à deux. C’est la version présentée sur le site EloRatings.net. D’autres versions existent en particulier une version dite Elo WWR FIFA, mais qui n’est appliquée par la FIFA qu’au football féminin. On se demande pourquoi ! La méthode ELO a fait l’objet de divers développements ultérieurs mais dans le cadre d’applications hors football principalement pour le jeu d’échecs, et aussi pour le jeu de Go ou la console de jeu Xbox de Microsoft: Classement Glicko de Mark Glickman en 1999 ; True Skill Through Time, dit TTT, de Pierre Dangauthier et alii, en 2007 ; Whole History Rating de Rémi Coulom en2008 et Elo++ du vainqueur Sismanis d’une compétition Kaggle en 2010. Les versions Glicko, TTT et WHR intègrent explicitement une composante dynamique pour prendre en compte l’évolution temporelle de la force des équipes. Il est à noter également que Glicko, WHR et TTT se réfèrent à une inférence bayésienne qui combine l’information propre aux données observées et une information a priori sur les paramètres qui gouvernent la distribution des observations.

Quoiqu’il en soit, le classement FIFA pour les équipes masculines, même retouché, ne reflète pas correctement les valeurs des équipes comme l’a montré l’étude de Lasek et alii de 2013. Leur analyse porte sur 979 matches joués entre avril 2011 et avril 2012, et son pouvoir prédictif s’avère nettement inférieur à celui des méthodes EloRating.net et Elo WWR. Il n’empêche que les modèles purement statiques ne valent que pour terme et que la dynamique temporelle est au cœur des préoccupations actuelles des concepteurs de classement, comme le montrent Ikonicoff pour les échecs en 2008 et Catelan et alii en 2010.

PT : Vous avez vous-même développé une approche bayésienne d’évaluation des équipes. En quoi se distingue-t-elle des autres ?

JLF : Elle reprend le modèle de lien entre la différence des valeurs d’équipes et la probabilité de victoire de l’une d’entre elles, mais en utilisant la loi normale et en intégrant explicitement la classe des matches nuls, selon le modèle Probit à seuils de Glenn et David.

L’idée est de synthétiser l’information sur les performances passées des équipes et leur variabilité par des distributions a priori calibrées sur des évaluations extérieures. On suppose que la valeur d’une équipe est distribuée normalement avec une espérance qui s’exprime comme la régression sur une évaluation externe de l’équipe provenant d’un classement fiable, comme l’UEFA des clubs ou EloRatings.net. Les a priori sur ces paramètres sont mis à jour au début de chaque saison à partir des a posteriori obtenus en fin de saison précédente. On peut également introduire d’autres sources d’information comme les cotes des bookmakers ou même des dires d’experts. On peut également rechercher d’un point de vue théorique d’autres types de distributions de la force des équipes comme le font Chetrite et alii (2017) qui laissent place à des équipes moins fortes et à des surprises comme ce fut la cas avec Leicester dans le la championnat anglais de Première Ligue en 2015-2016. On obtient des prévisions qui ont une précision tout à fait correcte en regard de celles des autres méthodes : un peu moins de 50% pour la ligue des champions et 40% pour la dernière coupe du monde. Ce chiffre est identique à celui obtenu par Groll et ses co-auteurs en 2015 avec un modèle « score » de type Poisson log-linéaire incluant de nombreuses covariables explicatives et des composantes « attaque » et « défense » propres à chaque équipe. Ce modèle « attaque-défense » généralise au domaine non linéaire la méthode des moindres carrés appliquée au modèle linéaire « score » de Kenneth Massey de 1997. Des modèles encore plus sophistiqués  basés sur une distribution de Skellam avec inflation en zéro ont été proposés pour prendre en compte la sous-estimation chronique des matches nuls en football, montrée par Karlis et Ntzoufras en 2006. Un panorama assez complet des méthodes mathématiques relevant du secteur « Evaluation et Classement » dans le sport est fourni par l’ouvrage de Langville et Meyer de 2012 et un état des lieux très détaillé pour l’ensemble des disciplines sportives figure dans l’article de synthèse de Stefani publié en 2011. Les théoriciens

PT : Vous venez d’évoquer des modélisations de plus en plus sophistiquées. N’y a-t-il pas là un risque pris par le théoricien de se faire avant tout plaisir au détriment de l’efficacité et de la compréhension ?

JLF : Vous avez tout à fait raison sur ce point. La simplicité conceptuelle des modèles doit rester une priorité même si les algorithmes d’estimation de ceux-ci font appel à des méthodes numériques lourdes. C’est ce qui s’est passé avec l’irruption des algorithmes de simulation de Monte – Carlo par chaînes de Markov cachées, les MCMC, qui a, d’un seul coup, libéré toutes les potentialités de la statistique bayésienne. Il en est de même de l’analyse de réseaux par les modèles graphiques qui séduisent à juste titre les décideurs et les utilisateurs par leur simplicité. Le succès de l’algorithme Google PageRank de classification des sites internet en est une illustration manifeste. Cet algorithme a trouvé d’ailleurs des applications dans d’autres domaines, par exemple en bibliométrie, auquel je m’intéresse avec Gilles Celeux et Julie Josse. J’aurais pu d’ailleurs aussi vous parler de son utilisation dans les classements sportifs et de jeux. Mais en sport et en football plus qu’ailleurs, la confrontation permanente des prédictions issues des modèles avec les résultats effectifs des matches constitue un juge de paix implacable qui incline le statisticien à la plus grande humilité.


Quelques éléments bibliographiques

 

Ouvrages

Albert J., Koning R. H., (2008), Statistical Thinking in Sports. Chapman & Hall/RC.

Elo A. E., (1978), The Rating of Chess Players-Past and Present, Battsford. chess books, HarperCollins.

Hyeans A., (2016), Sport Data Revolution,  L’analyse des données au service de la performance sportive, Dunod.

Langville A. N., Meyer C. D., (2012), Who’s #1 ? The Science of Rating and Ranking, Princeton University Press.

 

Articles de vulgarisation et de synthèse

Aftalion A., Lehning H., Lavallou F.,  (2016), Mathématiques et sports. Tangente, 168, 23-37

Coulom R., (2010),  Jeux et sports : le problème des classements. Pour la Science, 393, 20-27.

Ikonicoff R., (2008), Echecs: les maths veulent désigner le vrai champion du monde. Science & Vie, 1090, 110-117.

Stefani R., (2011), The methodology of officially recognized International Sports Rating Systems, Journal of Quantitative Analysis in Sports, 7, 1-22.

 

Articles de Recherche

Cattelan M., Varin C., Firth D., (2012), Stochastic dynamic Thurstone-Mosteller models for sports tournaments, Applied Statistics, 61, 135-150.

Chetrite R., Diel R., Lerasle L., (2017) The Number of Potential Winners in Bradley-Terry Model in Random Environment. Annals of Applied Probability, à paraître

Coulom R., (2008), Whole-history rating: a Bayesian rating system for players of time varying strength, Conference on Computers and Games, Beijing, China.

Dangauthier P., Herbrich R., Minka T., Graepel T., (2007), True Skill through time : revisiting the history of chess, Advances in Neural Information Processing Systems, 20, 337-344.

Glenn W. A., David H. A., (1960), Ties in paired-comparison experiments using a modified Thurstone-Mosteller model, Biometrics, 16: 86-109.

Glickman, M. E. (1999), Parameter estimation in large dynamic paired comparison experiments, Applied Statistics, 48, 377–394.

Groll A., Schauberger G., Tutz G., (2015), Prediction of major international soccer tournaments based on team specific regularized Poisson regression: an application to FIFA World Cup 2014, Journal of Quantitative Analysis in Sports, 11, 97-115.

Guyon J., (2014), Rethinking the FIFA world cup final draw, Journal of Quantitative Analysis in Sports, 11, 169-182.

Karlis D., Ntzoufras I., (2009), Bayesian modeling of football outcomes using the Skellam distribution for the goal difference, IMA Journal of management Mathematics, 20, 133-145

Lasek J., Szlavik Z., Bhulai S., (2013), The predictive power of ranking systems in association football, International Journal of Applied Pattern Recognition, 1. 27-46

Massey K., (1997), Statistical Models Applied to the Rating of Sport Teams, MSc thesis, Bluefield College.

SFdS, (2015), Numéro Spécial “Sports et Statistique”, Journal de la Société Française de Statistique, 156, 1-58.

Sismanis Y., (2010), How I won the “Chess Ratings: Elo vs the rest of the world” blog.kaggle.com/wpcontent/uploads/2011/02/kaggle_win.pdf

 

Jean-Louis Foulley
Les derniers articles par Jean-Louis Foulley (tout voir)