Les donnĂ©es ont toujours fait partie du monde du sport mais leur utilisation restait limitĂ©e dans certaines disciplines. Surtout dans le football, oĂč avant mĂȘme de pouvoir les exploiter, leur acquisition est en soi un dĂ©fi. Si le « tracking » fournit des vidĂ©os de matches, encore faut-il ĂȘtre capable de lâexploiter.
Pierre Miralles est diplĂŽmĂ© de lâEcole Polytechnique et de lâENSAE (Promotion 2003). AprĂšs plus de 10 ans dâanalyse quantitative en finance de marchĂ©, Pierre a co-fondĂ© en 2014 Footovision dont le cĆur de mĂ©tier est dâextraire et dâanalyser des donnĂ©es de matches de football pour proposer aux acteurs de ce sport une aide Ă la dĂ©cision statistique et quantitative.
Pierre, pourquoi avoir fondé Footovision ?
Je voyais Ă lâĂ©poque une opportunitĂ© de lier ma passion avec mes compĂ©tences acquises en statistiques et en mathĂ©matiques financiĂšres. Il y avait un peu de fascination pour le film « Moneyball » (1) mĂȘme si jâĂ©tais persuadĂ© que le football est trĂšs diffĂ©rent du baseball. Lâanalyse des donnĂ©es nâĂ©tait pas aussi dĂ©veloppĂ©e Ă lâĂ©poque et vu le dĂ©veloppement du secteur, les derniĂšres annĂ©es nous ont donnĂ© raison, Ă moi et mes deux associĂ©s cofondateurs.
Pouvez-vous nous décrire votre démarche ?
Nous proposons de lâanalyse de donnĂ©es pour les acteurs du monde du football. Tout part de la vidĂ©o. Certaines vidĂ©os sont en plans fixes et dâautres en camĂ©ra mobile. Certaines entreprises se sont spĂ©cialisĂ©es dans lâacquisition de donnĂ©es Ă partir de vidĂ©o (le tracking), dâautres se sont focalisĂ©es sur les Ă©vĂšnements de jeu, « autour du ballon ». Pour notre part nous gĂ©nĂ©rons les donnĂ©es de tracking Ă partir de vidĂ©o tĂ©lĂ© mais aussi les plans larges dâanalyste vidĂ©o. Nous « vectorisons » en quelque sorte ces donnĂ©es pour transformer le flux vidĂ©o en donnĂ©es de mouvement, de dĂ©placement, de passes, de tirs, et ce joueur par joueur.
Il y a donc une premiĂšre phase de traduction de la vidĂ©o avant lâanalyse a posteriori. Dans cette optique il y a trois utilisations pour une Ă©quipe : suivre ses propres performances ; analyser le jeu de ses adversaires ; recruter des joueurs.
Pourquoi les joueurs ne disposent pas tout simplement de GPS en match ?
En fait les joueurs portent des GPS pendant les matches et les entrainements, mais chaque Ă©quipe a son propre systĂšme et ne dispose donc que de ses propres donnĂ©es de position et de vitesse. Les Ă©quipes utilisent principalement les systĂšmes GPS pour le suivi des performances athlĂ©tiques des joueurs au quotidien, pour mesurer lâaccumulation de la charge de travail, lâĂ©tat de forme physique et minimiser le risque de blessure. Comme chaque Ă©quipe conserve prĂ©cieusement les donnĂ©es athlĂ©tiques de ses joueurs, il nây a pas de partage de donnĂ©es entre les clubs et il nâest donc pas possible dâanalyser en dĂ©tail les matches.
Pour lâanalyse dĂ©taillĂ©e des matches, câest principalement le tracking vidĂ©o qui est utilisĂ©. Aujourdâhui la technologie de tracking en camĂ©ras fixes multiples est standardisĂ©e mais elle coĂ»te trĂšs cher en installation, maintenance et demande un trĂšs haut dĂ©bit internet dans les stades. Quand nous sommes arrivĂ©s sur ce marchĂ©, dĂ©jĂ mature, de tracking vidĂ©o en camĂ©ras fixes multiples, nous avons prĂ©fĂ©rĂ© dĂ©velopper la technologie de tracking en camĂ©ra mobile pour pouvoir dĂ©mocratiser lâanalyse vidĂ©o afin que nos partenaires sâaffranchissent de coĂ»ts dâinstallation trĂšs Ă©levĂ©s et puissent avoir accĂšs Ă toute la donnĂ©e contenue dans les matches diffusĂ©s Ă la tĂ©lĂ©vision partout dans le monde.
Via lâutilisation de vidĂ©os plan large, nous arrivons Ă couvrir en moyenne 98 % du match dâun joueur avec une qualitĂ© similaire Ă la technologie camĂ©ras fixes multiples. La qualitĂ© de lâanalyse dĂ©pend du plan vidĂ©o mais dans les faits, il nây a guĂšre que les pas du gardien loin de lâaction qui restent inanalysĂ©s. La qualitĂ© de nos donnĂ©es de tracking a notamment Ă©tĂ© validĂ©e par la Fifa avec qui nous Ă©tudions une collaboration sur la production de Coupes du monde passĂ©es pour lesquelles elle nâavait pas encore de systĂšme de tracking.
Qui sont vos clients ?
Nous nous adressons aux clubs de football, aux ligues, aux opérateurs de paris sportifs et aux médias.
Historiquement nous avons des liens trĂšs forts avec des clubs ou fĂ©dĂ©rations trĂšs prestigieux que nous ne pouvons pas nommer. Ils nous enrichissent de leur connaissance mĂ©tier et nous les aidons par notre expertise, technologique et data, sur des thĂšmes stratĂ©giques clĂ©s comme le suivi de la performance de leur Ă©quipe, lâanalyse dĂ©taillĂ©e de leurs futurs adversaires et le recrutement. Par exemple nous collaborons trĂšs Ă©troitement avec Leeds United depuis maintenant trois saisons et lâarrivĂ©e de Marcelo Bielsa. Nous les aidons sur lâanalyse dĂ©taillĂ©e complĂšte de tous leurs futurs adversaires. Avec les succĂšs sportifs du club et son petit budget, câest dĂ©jĂ un peu « Moneyball » appliquĂ© au football. Depuis la saison derniĂšre, nous travaillons directement avec La Liga espagnole et ses 42 clubs de premiĂšre et deuxiĂšme division. Ceci nous a donnĂ© un coup dâaccĂ©lĂ©rateur, nous a permis dâindustrialiser notre solution de dashboard web dâanalyse, et donne dĂ©sormais de la visibilitĂ© financiĂšre Ă lâentreprise avec un contrat pluriannuel. Avoir des contrats directement avec les ligues nous permet dâĂȘtre moins tributaires du « temps du foot » avec les changements rĂ©guliers dâentraineur et de staff.
En parallĂšle, comme nous avons tous les trois une solide expĂ©rience en finance de marchĂ© et nous avons commencĂ© ces derniĂšres saisons Ă travailler avec des opĂ©rateurs de paris sportifs pour Ă©tudier comment utiliser les donnĂ©es historiques de performance de joueurs pour la prĂ©diction. Câest un sujet de R&D fascinant. Par exemple la notion dâExpected Goal est similaire Ă la notion de volatilitĂ© avec son estimation historique ou implicite. Pendant le dĂ©roulement dâun match on peut utiliser cette notion de « but attendu » pour calculer des quantitĂ©s comme la probabilitĂ© (Ă chaque moment) de marquer dans les dix prochaines secondes.
Enfin, nous avons fait beaucoup de tests avec des mĂ©dias Web et TV trĂšs connus sur de lâanalyse post-match ; il y a un appĂ©tit certain pour les donnĂ©es qui aident Ă confirmer ou infirmer une impression. Cependant, le moment oĂč la valeur des donnĂ©es de match est maximale reste pendant le dĂ©roulement mĂȘme du match. Il est donc essentiel de pouvoir produire ces donnĂ©es en temps rĂ©el avec un haut niveau de qualitĂ©. Câest ce que nous sommes en train de dĂ©velopper.
Quâest-ce qui vous dĂ©marque de vos concurrents ?
Concernant la production de données de match, nous sommes assez complémentaires des entreprises qui font du tracking pur, grùce à notre technologie de tracking en caméra mobile. Nous cherchons à garder un trÚs haut niveau de qualité dans notre production de données. Certains de nos concurrents en caméra mobile sont déjà complÚtement automatisés et nous allons chercher à automatiser autant que possible la production pour diminuer nos coûts de production. Mais nous ne voulons pas renoncer à la qualité de nos chiffres.
Nous sommes aussi complĂ©mentaires dâOpta (8) (car Opta aide les clubs mais aussi les mĂ©dias, en particulier les journalistes et les consultants pour la production spontanĂ©e de chiffres saillants Ă citer live au commentaire par exemple). Nous fournissons en effet les Ă©vĂšnements sans ballon et des Ă©vĂšnements ballons complexes (3).
Du cĂŽtĂ© de notre solution dâanalyse, nous sommes vraiment sur un crĂ©neau de production de statistiques de jeu et dâaide Ă la dĂ©cision des acteurs du jeu pour le recrutement et lâanalyse du jeu. Nous proposons une solution web oĂč lâutilisateur peut dĂ©finir lui-mĂȘme son rapport Ă lâinformation pertinente, selon ses critĂšres propres ; alors que le marchĂ© tend Ă proposer historiquement des rapports pdf standardisĂ©s, de plusieurs centaines de pages qui sâaccumulent sur le bureau de lâentraĂźneur.
Google a rĂ©cemment annoncĂ© via DeepMind sâintĂ©resser au football (7). Comment voyez-vous cette « concurrence » ?
Ce nâest pas forcĂ©ment un problĂšme. Cette concurrence peut faire peur, Ă©videmment, car ils rencontrent souvent du succĂšs dans leurs initiatives. Mais je vois ça aussi comme la preuve que le marchĂ© des data analytics dans le sport, sâil ne reprĂ©sente pour le moment quâenviron un milliard par an, nâest « pas si petit ». Si Google sây attaque, cela crĂ©dibilise Ă la fois le marchĂ© et notre dĂ©marche. Cela crĂ©e une Ă©mulation, chez les clients, dans les universitĂ©s ou parmi les Ă©tudiants !
Il y a quand mĂȘme encore beaucoup de problĂšmes ouverts. Ils ont eu des rĂ©ussites incroyables sur le go ou les Ă©checs. Mais ces derniers sont des jeux « statiques » : reste Ă voir ce quâils rĂ©ussiront Ă faire sur des sports « de mouvement », pour qui, pour quoi, et avec qui.
Quelles sont les techniques statistiques utilisées dans le cadre de votre activité ?
Pour la partie dâanalyse dâimage, nous utilisons nos propres mĂ©thodes de computer vision, mais aussi les mĂ©thodes plus performantes de dĂ©tection de personnes basĂ©es sur du deep learning. Il est intĂ©ressant de noter que la rĂ©volution qui arrive est apportĂ©e par les modĂšles de pose comme OpenPose : Ă partir de lâimage dâune personne, ces modĂšles dâapprentissage statistique infĂšrent sa posture et permettent donc de « digitaliser » sa structure squelettique. En mouvement on peut donc diagnostiquer une posture, une attitude, une dĂ©marche, une vitesse, une intention. Outre la position 2D du joueur que nous pouvons suivre prĂ©cisĂ©ment, on pourra dĂ©sormais suivre et analyser lâensemble de ses mouvements.
Comme le rappelait dĂ©jĂ Yoann Cruyff, « Quand vous jouez un match, il est statistiquement prouvĂ© que les joueurs nâont la balle que 3 minutes en moyenne. Le plus important, câest donc ce que vous faites pendant ces 87 minutes oĂč vous nâavez pas la balle. Câest ce qui fait que vous ĂȘtes un bon joueur ou non. » Nous essayons donc dâanalyser lâensemble du jeu avec et sans ballon, en prenant en compte le contexte de jeu. En gros nous utilisons les mĂ©thodes dâespĂ©rance conditionnelle, en conditionnant sur le contexte de jeu pour obtenir des indicateurs de performance plus pertinents. Par exemple, ce qui caractĂ©rise notamment un trĂšs bon joueur par rapport a un joueur moyen, câest sa capacitĂ© Ă rĂ©sister Ă la pression. Autrement dit, les performances dâun trĂšs bon joueur ne doivent pas se dĂ©grader quand la pression augmente.
Nous ajoutons ensuite des couches de classification avec surtout la crĂ©ation de 800 KPI par joueur et par match (6). Ceci nous sert Ă dĂ©finir des profils types de joueurs trĂšs utiles pour le recrutement. Un sujet dâĂ©tude trĂšs intĂ©ressant dans ce domaine est la prĂ©diction de performance dâun joueur dâune Ă©quipe Ă une autre : comment simuler lâadaptation dâun joueur dâun championnat Ă un autre, ou dâune Ă©quipe Ă une autre. Enfin, les Ă©vĂšnements particuliers restent Ă©videmment les plus durs Ă analyser. Sur les tirs de loin, la probabilitĂ© de rĂ©ussir ce tir dĂ©pend de la proximitĂ© du gardien Ă sa ligne de but, mais le joueur ne dĂ©clenche justement souvent sa frappe que si le gardien sort loin de ses bases.
Une autre notion trĂšs utilisĂ©e sur laquelle nous travaillons beaucoup est celle dâExpected Goals – ou « buts attendus ». En fait il ne sâagit pas juste du nombre de buts que lâĂ©quipe aurait dĂ» marquer au regard de ses tirs effectuĂ©s. Il sâagit de voir par exemple lâapport de chaque action de joueur Ă lâExpected Goal global de lâĂ©quipe : un joueur peut apporter de lâExpected Goal en crĂ©ant une occasion de but ou en faisant une rĂ©cupĂ©ration proche de son but mais il peut aussi en perdre en perdant la balle ou en prenant une mauvaise dĂ©cision. Ainsi ce critĂšre sâest gĂ©nĂ©ralisĂ© depuis quelques annĂ©es et reflĂšte la somme des performances de lâĂ©quipe, du gardien Ă lâattaquant. Câest le plus intĂ©ressant : ĂȘtre capable dâexprimer la performance dâun joueur comme sa contribution Ă celle de son Ă©quipe. Avoir le pourcentage de passes rĂ©ussies ou ratĂ©es, câest bien mais pas suffisant. Ce qui est dĂ©cisif est de ramener la performance Ă un contexte de jeu. Pour un financier, je dirais quâestimer un Expected Goal en amont des situations de tir est assez Ă©quivalent dans lâesprit au pricing backward des options.
Que manquerait-il justement si lâon composait une Ă©quipe uniquement avec des statistiques, comme dans le film « Moneyball » ?
Les donnĂ©es disent beaucoup mais les paramĂštres humains sont trĂšs importants et potentialisent le talent. Il y a des leaders, des joueurs qui tirent une Ă©quipe vers le haut, et il faut mĂ©langer les profils. LâĂ©quipe dâArsenal que jâai soutenue dans mes annĂ©es londoniennes avait des joueurs incroyables techniquement mais qui manquaient de caractĂšre. LâexpĂ©rience et le leadership, la langue et les aptitudes de communication, lâentente rĂ©elle entre les joueurs, ce sont des composantes essentielles dans les faits.
Dans leur livre cĂ©lĂšbre, Szymanksi et Kuper (2) avaient identifiĂ© que les joueurs « ont peur des donnĂ©es ». Beaucoup de consultants et anciens joueurs marquent leur distance vis-Ă -vis de lâutilisation des donnĂ©es. Comprenez-vous cette dĂ©fiance ?
Cela ne me choque pas, je peux le comprendre. Cela vient peut-ĂȘtre dâun problĂšme culturel qui perdure mais qui change doucement avec le temps. Outre les joueurs, les journalistes ont une formation littĂ©raire. Le chiffre pour le chiffre ramĂšne Ă une analyse froide.
CĂŽtĂ© terrain, JosĂ© Mourinho (4) a beaucoup utilisĂ© les donnĂ©es et a produit un jeu de protection et de dĂ©fense trĂšs poussĂ©, un peu destructif. Peut-ĂȘtre que jusquâici les donnĂ©es avaient Ă©tĂ© utilisĂ©es de maniĂšre nĂ©gative (au sens du jeu). A contrario, Pep Guardiola (5), entraĂźneur de Manchester City est champion dâAngleterre et en finale de Ligue des Champions cette annĂ©e tout en Ă©tant un trĂšs grand utilisateur de donnĂ©es. Mais Guardiola a une idĂ©e de jeu trĂšs nette, trĂšs marquĂ©e, basĂ©e sur la possession et il utilise les donnĂ©es pour minimiser ses risques. Sur un match, cela ne vous garantit pas de gagner. Sur un match seul, les donnĂ©es ne vous font pas gagner la partie. Mais sur une saison elles peuvent vous aident Ă gagner un championnat. Câest la loi des grands nombres : si les donnĂ©es vous aident Ă rĂ©duire vos risques, la rĂ©pĂ©tition jouera en votre faveur et votre approche sera payante Ă long terme.
Enfin, sans donnĂ©es il est compliquĂ© de dĂ©finir la performance de certains postes. Un match ratĂ© ou rĂ©ussi pour un attaquant est facile Ă dĂ©terminer puisque celui-ci doit ĂȘtre dĂ©cisif quand il en a lâopportunitĂ©. Câest plus compliquĂ© pour les milieux qui sont au cĆur du jeu et ont pour mission de fluidifier le jeu : un grand milieu peut livrer une grande performance en Ă©tant plutĂŽt « invisible » aux yeux du spectateur.
Pourriez-vous vous diriger vers dâautres sports ?
Alors mĂȘme que le monde du football est le plus adaptĂ© Ă nos techniques, il faut toujours du temps pour y convaincre les acteurs du jeu et les clubs. A lâopposĂ© les clubs de rugby sont trĂšs intĂ©ressĂ©s par notre dĂ©marche et nous contactent mĂȘme spontanĂ©ment. Le rugby sera probablement une suite envisageable. Le football amĂ©ricain pourrait ĂȘtre aussi un dĂ©bouchĂ©. Une finale de Ligue des Champions gĂ©nĂšre Ă peu prĂšs autant de « buzz » quâun Super Bowl. Le football amĂ©ricain est dĂ©jĂ lui aussi un sport de chiffres mais il reste tant Ă faire dans ce type de sports « dynamique » (au contraire du baseball oĂč par exemple des sĂ©quences figĂ©es sont rĂ©pĂ©tĂ©es inlassablement).
Une derniÚre éventualité serait le tennis : dans ce cas nos clients seraient directement les joueurs (ou leur entraßneur, leur staff technique) pour améliorer leur jeu ou cataloguer leurs adversaires. Les montants et les volumes de données sont pour le moment trÚs inférieurs à ceux du football, mais dans ce cas précis, les modÚles de pose marchent trÚs bien et ce serait une application naturelle.
Un mot pour conclure ?
Il y a encore beaucoup Ă faire mais la « vision » reste totalement nĂ©cessaire : la vidĂ©o reste un Ă©lĂ©ment de base pour lâobtention de la data. Tout cela va sâindustrialiser et les clubs vont de plus en plus internaliser la nĂ©cessitĂ© de travailler avec des donnĂ©es qui font dĂ©jĂ partie de leur quotidien.
Notes :
(1) « Moneyball » : « Le StratĂšge » en français, film tirĂ© dâune histoire vraie – voir ici : https://www.imdb.com/title/tt1210166/
(2) Szymanski et Kuper â Les attaquants les plus chers ne sont pas ceux qui marquent le plus â DE BOECK SUP (2015) – https://www.amazon.fr/attaquants-plus-chers-sont-marquent/dp/2804171531
(3) NDLA : intuitivement, le spectateur « suit » Ă la tĂ©lĂ©vision principalement le ballon. Historiquement, lâanalyse sâest donc souvent retrouvĂ©e descriptive des actions associĂ©es au « porteur » de balle : X passe Ă Y, X se retourne, X tire, etc. Ces analyses ne sont plus suffisantes. Il faut ĂȘtre dĂ©sormais capable dâanalyser ce qui se passe dans le reste du jeu, Ă savoir les Ă©vĂšnements sans le ballon : quel joueur se dĂ©place dans quelle zone, mĂȘme sâil ne reçoit pas de passe, quel joueur effectue un appel, etc. La description des Ă©vĂšnements complexes avec le ballon peut ĂȘtre la qualification dâune passe ou dâun tir, une faute, un accrochage, etc.
(4) JosĂ© Mourinho : entraĂźneur star de la dĂ©cennie 2000-2010, passĂ© par Porto, Chelsea, lâInter, Manchester United, rĂ©cemment licenciĂ© de Tottenham et qui prendra la responsabilitĂ© de lâĂ©quipe de lâAS Rome en AoĂ»t 2021 – https://fr.wikipedia.org/wiki/Jos%C3%A9_Mourinho
(5) Josep « Pep » Guardiola : ancien joueur du FC Barcelone, thĂ©oricien du jeu dĂ©sormais entraĂźneur, passĂ© par le FC Barcelone, le Bayern Munich et dĂ©sormais Manchester City, souvent considĂ©rĂ© comme le meilleur entraĂźneur du monde Ă lâheure actuelle – https://fr.wikipedia.org/wiki/Pep_Guardiola
(6) KPI = Key Performance Indicators, soit 800 variables dâintĂ©rĂȘt liĂ©es Ă la performance du joueur sur le match.
(8) Opta Sports est un pionnier et lâun des plus grands acteurs dans le domaine de la donnĂ©es sportive – https://www.optasports.com/
- Machine Learning et sport : Footovision ou le football 2.0 - 24 juin 2021
Commentaires récents