Le 17 Mars 2021 a eu lieu le webinar en ligne « Sport et Data » co-organisé par ENSAE Alumni et ENSAI Alumni. Ce séminaire a permis de faire un tour d’horizon de l’utilisation des données dans le monde du sport ; illustration d’un thème en pleine expansion où les ENSAE et ENSAI s’illustrent pleinement. L’occasion pour Variances de faire un compte-rendu de cette soirée.

Le 17 Mars 2021, le Webinar « Sport et Data » a réuni virtuellement une cinquantaine de participants pendant deux heures. L’occasion pour les participants Mélanie Baconnais (ENSAI 2021), Pierre Miralles (ENSAE 2003), Nolwenn Pinczon du Sel (ENSAI 2021) et Claire Poirson (avocate associée au cabinet Bersay) d’échanger sur les enjeux sportifs, statistiques et juridiques, actuels comme à venir, de l’utilisation de la donnée dans le sport professionnel.

Un sujet en pleine expansion

Les données ont massivement investi le monde du sport. Tout le monde pense naturellement au football, ce sport étant celui ayant le plus d’enjeux financiers et d’enjeux d’opinion ; mais l’utilisation de la donnée dans le sport ne saurait lui être restreinte. Crampons intelligents qui mesurent les efforts multilatéraux pour optimiser la manière de pousser dans une mêlée de rugby, paris sportifs, même les montres connectées portées produisent des quantités de données exploitées par les entraîneurs ou les réseaux sociaux spécialisés en course à pied. L’ENSAE et l’ENSAI ont construit leur réputation sur la solidité des formations qu’elles dispensent en data science, statistiques, finance et actuariat. Il est logique dès lors de voir des alumni de ces deux écoles investir des fonctions reliées au monde du sport.

Le football, une bonne illustration

Reprenons à titre illustratif le cas du football. La prise de conscience de l’importance des données est ancienne : l’iconique Kick and Rush anglais a été intronisé après la première analyste statistique de l’histoire du football. Le livre de Kuper et Szymanski « Soccernomics » (en français : « Les attaquants les plus chers ne sont pas ceux qui marquent le plus »), publié en 2009, est une introduction canonique au thème. Les données statistiques sont désormais la matière interstitielle dans ce sport. Elles interviennent pour l’analyse de l’entraînement, l’analyse du match, le recrutement, les paris sportifs. Il y a des sites, de statistiques ou de crowd evaluation (Squawka, Transfermarks), des logiciels (Wyscout), des entreprises (Opta, Stats), des experts pour chacun des thèmes précités. Dans les faits, se demander si le football peut être soluble dans les statistiques (ou si l’on peut totalement modéliser le football) n’est probablement pas la bonne question.  C’est du reste pour cela que malgré une omniprésence, la fusion totale entre donnée et terrain ne s’est pas encore opérée. Mais la disponibilité de ces données pose d’autres questions ; savoir notamment qui est propriétaire de ces données : l’athlète ? le club ? le diffuseur ? le stade ? Et pour cela, le problème n’est évidemment pas restreint au football.

Déroulement du Webinar

Mélanie Baconnais (ENSAI 2021) est Data Scientist et a développé un intérêt pour le sport au cours de ses études. Mélanie travaille en collaboration avec l’Institut de Recherche bioMédicale et d’Epidémiologie du Sport (IRMES) de l’INSEP. Elle a entre autres pour mission d’étudier les facteurs de performance des athlètes paralympiques. L’INSEP, institut public, travaille en particulier avec les athlètes qui participent aux Jeux Paralympiques (pour 13 des 22 sports, soit 75 % des médailles acquises à Rio en 2016). L’objectif en vue de Paris 2024 est d’optimiser le parcours sportif de chaque athlète français, en évaluant la charge d’entraînement et les données de performance, pour fournir un accompagnement chiffré aux athlètes et à leur staff. Mélanie travaille dans ce contexte pour le projet PARAPERF et se concentre notamment sur l’épreuve de tir au pistolet.

Le sujet est particulier mais très intéressant car contrairement à des sports plus médiatiques, les données sont par nature moins disponibles. Il s’agit essentiellement de données de compétition, non de données d’entraînement. En particulier, pas de GPS ou de vidéo comme en football. Le suivi et la constitution des jeux de données se fait essentiellement à la main, en décortiquant semi-automatiquement des fichiers pdf disponibles sur des sites spécialisés. Rien d’automatique au sens où la donnée de base n’existe pas et est incomplète. En particulier, la nature du handicap des athlètes est en général inconnue. Mélanie a donc essentiellement présenté des cas d’usage dans le cas du tir au pistolet où les enjeux sont de permettre aux athlètes de prioriser les épreuves, les aider à se situer dans un contexte concurrentiel et à se qualifier le cas échéant, ou comment sciemment abandonner certaines épreuves pour mieux se concentrer sur d’autres. La mission de base du Data Scientist reste d’analyser les performances, de cibler un potentiel de médailles, d’identifier les déterminants de la progression et surtout de restituer l’information au staff. C’est là l’essentiel et le plus difficile. Il faut donner des outils de visualisation, clé en main. Les athlètes ont peu de culture statistique, peu de temps à consacrer à ces retours, donc les moments de contact, qui se font avec le staff, doivent être efficaces, visuels et concis. Il n’y a pas d’interférence dans le lien staff-athlète, c’est toujours l’entraîneur national ou le staff qui reste la personne clé pour l’athlète. Ces derniers n’ont pas assez de recul sur leur pratique si le message qui leur est fourni est trop direct ou trop décontextualisé. Les entraîneurs sont donc les destinataires du message chiffré.

Pierre Miralles (ENSAE 2003) est diplômé de l’Ecole Polytechnique et de l’ENSAE (Promotion 2003). Après plus de 10 ans d’analyse quantitative en finance de marché, Pierre a co-fondé en 2014 Footovision dont le cœur de métier est d’extraire et d’analyser des données de matches de football pour proposer aux acteurs de ce sport une aide à la décision statistique et quantitative.

Outre les enjeux financiers, le champ d’application de la science dans le football est énorme car le football est un sport dynamique. Contrairement à d’autres sports comme le baseball, les degrés de liberté sont extrêmement nombreux et les probabilités sont plus dures à modéliser. L’importance de la reconnaissance visuelle par ordinateur est cruciale pour analyser toute la donnée dans son contexte, et pas seulement la donnée « autour du ballon ». Les trois autres champs investis par Footovision sont l’Intelligence Artificielle, la Data Science (un match génère environ 5Go de données) et la Business Intelligence. Travaillant jusqu’à présent avec des données de matches terminés, une des ambitions de Footovision est de fournir un jour une solution en temps réel. Les clubs utilisent les licences Footovision pour suivre leur propre équipe, analyser leur futur adversaire, ou étayer les entretiens individuels et des analyses avec les joueurs. La composante de reconnaissance des actions par ordinateur est utilisée par les médias et les diffuseurs pour animer et habiller les images (palettes, cerclages etc.). Une application potentielle serait de fournir en temps réel un rendu 2D d’un match pour les chaînes n’ayant pas de droits de retransmission. Pierre a présenté de nombreux aspects et cas d’usages. Nous avions déjà eu un entretien avec lui il y a quelques mois, entretien que nous vous invitons à retrouver ici (https://variances.eu/?p=6038).

Nolwenn Pinczon du Sel (ENSAI 2021) est elle aussi Data Scientist et travaille pour la Fédération Française de Rugby après avoir travaillé pour l’INSEP et la Fédération Française de Boxe. Nolwenn a commencé par insister sur la spécificité de l’organisation interne du staff de l’équipe de France. La Fédération, en appui avec son sélectionneur, a instauré un fonctionnement mimétique et vertical. Si la priorité est évidemment donnée à l’équipe A, par rapport aux équipes de jeunes, tous les staffs ont schématiquement les mêmes fonctionnements, les mêmes exigences, et les mêmes supports (statistiques, jeu, nutrition, médical, etc.). En particulier, le travail de l’équipe d’analystes peut ainsi profiter à tous. Les récents succès de l’équipe (Grand Chelem dans le Tournoi des 6 Nations 2022) sont donc probablement tout sauf un hasard : la synergie entre les staffs et les équipes d’analystes est grande. Il s’agit donc de produire des indicateurs de performance tout en s’adaptant à chaque staff. L’équipe s’appuie sur des données tactiques (à partir de vidéos encodées par leur partenaire, l’entreprise STATS) et sur des données physiques (là encore GPS, tests, données cardiologiques, marqueurs biologiques). Mais aussi (et c’est là la particularité de ce fonctionnement global) des questionnaires subjectifs pour les joueurs sur leur ressenti concernant leur ressenti des charges émotionnelles et physiques auxquelles ils font face. Les prérogatives de l’équipe permettent entre autres d’adapter l’entraînement, d’assister les analystes du jeu, de cibler les joueurs à sélectionner, de suivre la charge effective et perçue, et évidemment de prévenir les blessures.

Si l’on devait structurer les apports du groupe de Data Scientists pour l’équipe de France, il y aurait selon Nolwenn trois axes principaux. Premièrement, il s’agit de créer un outil de suivi pour avoir un retour objectif sur le réalisé. En d’autres termes, faire ressortir les qualités individuelles tout en vérifiant que les séances physiques et techniques sont bien respectées. Deuxièmement, il s’agit d’analyser la performance en match, des joueurs de l’équipe mais aussi des adversaires, et ce au niveau collectif comme individuel. Pour ce dernier aspect, comme il n’est pas appréhendé par les data providers, des experts vidéo rugby restent nécessaire, ces derniers s’appuyant appui sur des extraits vidéo. Enfin, le troisième thème (qui a fourni un cas d’usage présenté en détail par Nolwenn) est l’analyse du jeu, tout particulièrement le jeu au pied.

Claire Poirson est avocate associée du cabinet Bersay. Claire est spécialisée dans la gestion juridique des données, de la propriété intellectuelle aux problématiques IT. Les enjeux juridiques principaux sur l’utilisation de la donnée sont au nombre de trois : la protection de la vie privée et du droit à l’image ; la protection de la vie professionnelle (ceci est directement lié à la carrière professionnelle et reste un aspect qui s’apparente au droit de la santé des professionnels) ; enfin le dernier enjeu est l’usage commercial des données personnelles (et il encapsule l’encadrement de la collecte et de l’utilisation des données personnelles à usage commercial). Un exemple frappant est qu’au Royaume-Uni, 850 footballeurs ont mis en demeure 17 entreprises de paris sportifs pour utilisation sans leur consentement de leurs données de performance (1). Reste à qualifier juridiquement la donnée. Les données classiques sont tout ce qui permet d’identifier une personne. La collecte de données classiques est autorisée mais est soumise à conditions. Les finalités doivent être définies et les sportifs informés. Les données de santé ne peuvent quant à elles être collectées sauf exception. Le acteurs collectant ces dernières sont soumis à des obligations spécifiques ; une interdiction de cession à titre onéreux s’applique en général pour les données de santé.

Conclusion

Les données sont de plus en plus présentes dans le sport. En conséquence, les profils de Data Scientists sont aussi plus nombreux dans les clubs, mais aussi dans les fédérations. L’utilisation de la donnée n’est pas confinée au football. Si les spécificités de ce sport font que sa modélisation reste un énorme défi, les statistiques s’infiltrent dans de nombreux sports, du rugby au tir au pistolet, et pas seulement pour les sportifs valides ! Le but restera cependant de fournir une aide à la décision aux staffs et entraîneurs. Pour ne pas « brusquer » les acteurs du milieu, il faut encore les habituer au discours statistique. Mais ces acteurs sont eux-mêmes partie prenante de la démarche. Pour une bonne entente, le défi essentiel est de les guider pour les aider dans la prise de recul sans les remplacer dans leur métier au quotidien. Le Data Scientist doit traiter des données de plus en plus complètes et variées, objectiver les a priori des sportifs, et fournir des outils d’aide aux experts.


Notes

(1) Même si ceci n’est pas directement lié aux données statistiques, les enjeux financiers sont devenus tels que les joueurs et leur entourage cherchent actuellement à reprendre le contrôle sur tous les aspects de leur image. En témoignent les actions pour collecter plus de droits sur les images autocollantes, les licences de jeux vidéo, ou les contrats publicitaires négociés globalement par les fédérations au nom des équipes nationales.

Guillaume Simon
Les derniers articles par Guillaume Simon (tout voir)