Les donnĂ©es ont toujours fait partie du monde du sport mais leur utilisation restait limitĂ©e dans certaines disciplines. Surtout dans le football, oĂč avant mĂȘme de pouvoir les exploiter, leur acquisition est en soi un dĂ©fi. Si le « tracking » fournit des vidĂ©os de matches, encore faut-il ĂȘtre capable de l’exploiter.

Pierre Miralles est diplĂŽmĂ© de l’Ecole Polytechnique et de l’ENSAE (Promotion 2003). AprĂšs plus de 10 ans d’analyse quantitative en finance de marchĂ©, Pierre a co-fondĂ© en 2014 Footovision dont le cƓur de mĂ©tier est d’extraire et d’analyser des donnĂ©es de matches de football pour proposer aux acteurs de ce sport une aide Ă  la dĂ©cision statistique et quantitative.

Pierre, pourquoi avoir fondé Footovision ?

Je voyais Ă  l’époque une opportunitĂ© de lier ma passion avec mes compĂ©tences acquises en statistiques et en mathĂ©matiques financiĂšres. Il y avait un peu de fascination pour le film « Moneyball » (1) mĂȘme si j’étais persuadĂ© que le football est trĂšs diffĂ©rent du baseball. L’analyse des donnĂ©es n’était pas aussi dĂ©veloppĂ©e Ă  l’époque et vu le dĂ©veloppement du secteur, les derniĂšres annĂ©es nous ont donnĂ© raison, Ă  moi et mes deux associĂ©s cofondateurs.

Pouvez-vous nous décrire votre démarche ?

Nous proposons de l’analyse de donnĂ©es pour les acteurs du monde du football. Tout part de la vidĂ©o. Certaines vidĂ©os sont en plans fixes et d’autres en camĂ©ra mobile. Certaines entreprises se sont spĂ©cialisĂ©es dans l’acquisition de donnĂ©es Ă  partir de vidĂ©o (le tracking), d’autres se sont focalisĂ©es sur les Ă©vĂšnements de jeu, « autour du ballon ». Pour notre part nous gĂ©nĂ©rons les donnĂ©es de tracking Ă  partir de vidĂ©o tĂ©lĂ© mais aussi les plans larges d’analyste vidĂ©o. Nous « vectorisons » en quelque sorte ces donnĂ©es pour transformer le flux vidĂ©o en donnĂ©es de mouvement, de dĂ©placement, de passes, de tirs, et ce joueur par joueur.

Il y a donc une premiĂšre phase de traduction de la vidĂ©o avant l’analyse a posteriori. Dans cette optique il y a trois utilisations pour une Ă©quipe : suivre ses propres performances ; analyser le jeu de ses adversaires ; recruter des joueurs.

Pourquoi les joueurs ne disposent pas tout simplement de GPS en match ?

En fait les joueurs portent des GPS pendant les matches et les entrainements, mais chaque Ă©quipe a son propre systĂšme et ne dispose donc que de ses propres donnĂ©es de position et de vitesse. Les Ă©quipes utilisent principalement les systĂšmes GPS pour le suivi des performances athlĂ©tiques des joueurs au quotidien, pour mesurer l’accumulation de la charge de travail, l’état de forme physique et minimiser le risque de blessure. Comme chaque Ă©quipe conserve prĂ©cieusement les donnĂ©es athlĂ©tiques de ses joueurs, il n’y a pas de partage de donnĂ©es entre les clubs et il n’est donc pas possible d’analyser en dĂ©tail les matches.

Pour l’analyse dĂ©taillĂ©e des matches, c’est principalement le tracking vidĂ©o qui est utilisĂ©. Aujourd’hui la technologie de tracking en camĂ©ras fixes multiples est standardisĂ©e mais elle coĂ»te trĂšs cher en installation, maintenance et demande un trĂšs haut dĂ©bit internet dans les stades. Quand nous sommes arrivĂ©s sur ce marchĂ©, dĂ©jĂ  mature, de tracking vidĂ©o en camĂ©ras fixes multiples, nous avons prĂ©fĂ©rĂ© dĂ©velopper la technologie de tracking en camĂ©ra mobile pour pouvoir dĂ©mocratiser l’analyse vidĂ©o afin que nos partenaires s’affranchissent de coĂ»ts d’installation trĂšs Ă©levĂ©s et puissent avoir accĂšs Ă  toute la donnĂ©e contenue dans les matches diffusĂ©s Ă  la tĂ©lĂ©vision partout dans le monde.

Via l’utilisation de vidĂ©os plan large, nous arrivons Ă  couvrir en moyenne 98 % du match d’un joueur avec une qualitĂ© similaire Ă  la technologie camĂ©ras fixes multiples. La qualitĂ© de l’analyse dĂ©pend du plan vidĂ©o mais dans les faits, il n’y a guĂšre que les pas du gardien loin de l’action qui restent inanalysĂ©s. La qualitĂ© de nos donnĂ©es de tracking a notamment Ă©tĂ© validĂ©e par la Fifa avec qui nous Ă©tudions une collaboration sur la production de Coupes du monde passĂ©es pour lesquelles elle n’avait pas encore de systĂšme de tracking.

Qui sont vos clients ?

Nous nous adressons aux clubs de football, aux ligues, aux opérateurs de paris sportifs et aux médias.

Historiquement nous avons des liens trĂšs forts avec des clubs ou fĂ©dĂ©rations trĂšs prestigieux que nous ne pouvons pas nommer. Ils nous enrichissent de leur connaissance mĂ©tier et nous les aidons par notre expertise, technologique et data, sur des thĂšmes stratĂ©giques clĂ©s comme le suivi de la performance de leur Ă©quipe, l’analyse dĂ©taillĂ©e de leurs futurs adversaires et le recrutement. Par exemple nous collaborons trĂšs Ă©troitement avec Leeds United depuis maintenant trois saisons et l’arrivĂ©e de Marcelo Bielsa. Nous les aidons sur l’analyse dĂ©taillĂ©e complĂšte de tous leurs futurs adversaires. Avec les succĂšs sportifs du club et son petit budget, c’est dĂ©jĂ  un peu « Moneyball » appliquĂ© au football. Depuis la saison derniĂšre, nous travaillons directement avec La Liga espagnole et ses 42 clubs de premiĂšre et deuxiĂšme division. Ceci nous a donnĂ© un coup d’accĂ©lĂ©rateur, nous a permis d’industrialiser notre solution de dashboard web d’analyse, et donne dĂ©sormais de la visibilitĂ© financiĂšre Ă  l’entreprise avec un contrat pluriannuel. Avoir des contrats directement avec les ligues nous permet d’ĂȘtre moins tributaires du « temps du foot » avec les changements rĂ©guliers d’entraineur et de staff.

En parallĂšle, comme nous avons tous les trois une solide expĂ©rience en finance de marchĂ© et nous avons commencĂ© ces derniĂšres saisons Ă  travailler avec des opĂ©rateurs de paris sportifs pour Ă©tudier comment utiliser les donnĂ©es historiques de performance de joueurs pour la prĂ©diction. C’est un sujet de R&D fascinant. Par exemple la notion d’Expected Goal est similaire Ă  la notion de volatilitĂ© avec son estimation historique ou implicite. Pendant le dĂ©roulement d’un match on peut utiliser cette notion de « but attendu » pour calculer des quantitĂ©s comme la probabilitĂ© (Ă  chaque moment) de marquer dans les dix prochaines secondes.

Enfin, nous avons fait beaucoup de tests avec des mĂ©dias Web et TV trĂšs connus sur de l’analyse post-match ; il y a un appĂ©tit certain pour les donnĂ©es qui aident Ă  confirmer ou infirmer une impression. Cependant, le moment oĂč la valeur des donnĂ©es de match est maximale reste pendant le  dĂ©roulement mĂȘme du match. Il est donc essentiel de pouvoir produire ces donnĂ©es en temps rĂ©el avec un haut niveau de qualitĂ©. C’est ce que nous sommes en train de dĂ©velopper.

Qu’est-ce qui vous dĂ©marque de vos concurrents ?

Concernant la production de données de match, nous sommes assez complémentaires des entreprises qui font du tracking pur, grùce à notre technologie de tracking en caméra mobile. Nous cherchons à garder un trÚs haut niveau de qualité dans notre production de données. Certains de nos concurrents en caméra mobile sont déjà complÚtement automatisés et nous allons chercher à automatiser autant que possible la production pour diminuer nos coûts de production. Mais nous ne voulons pas renoncer à la qualité de nos chiffres.

Nous sommes aussi complĂ©mentaires d’Opta (8) (car Opta aide les clubs mais aussi les mĂ©dias, en particulier les journalistes et les consultants pour la production spontanĂ©e de chiffres saillants Ă  citer live au commentaire par exemple). Nous fournissons en effet les Ă©vĂšnements sans ballon et des Ă©vĂšnements ballons complexes (3).

Du cĂŽtĂ© de notre solution d’analyse, nous sommes vraiment sur un crĂ©neau de production de statistiques de jeu et d’aide Ă  la dĂ©cision des acteurs du jeu pour le recrutement et l’analyse du jeu. Nous proposons une solution web oĂč l’utilisateur peut dĂ©finir lui-mĂȘme son rapport Ă  l’information pertinente, selon ses critĂšres propres ; alors que le marchĂ© tend Ă  proposer historiquement des rapports pdf standardisĂ©s, de plusieurs centaines de pages qui s’accumulent sur le bureau de l’entraĂźneur.

Google a rĂ©cemment annoncĂ© via DeepMind s’intĂ©resser au football (7). Comment voyez-vous cette « concurrence » ?

Ce n’est pas forcĂ©ment un problĂšme. Cette concurrence peut faire peur, Ă©videmment, car ils rencontrent souvent du succĂšs dans leurs initiatives. Mais je vois ça aussi comme la preuve que le marchĂ© des data analytics dans le sport, s’il ne reprĂ©sente pour le moment qu’environ un milliard par an, n’est « pas si petit ». Si Google s’y attaque, cela crĂ©dibilise Ă  la fois le marchĂ© et notre dĂ©marche. Cela crĂ©e une Ă©mulation, chez les clients, dans les universitĂ©s ou parmi les Ă©tudiants !

Il y a quand mĂȘme encore beaucoup de problĂšmes ouverts. Ils ont eu des rĂ©ussites incroyables sur le go ou les Ă©checs. Mais ces derniers sont des jeux « statiques » : reste Ă  voir ce qu’ils rĂ©ussiront Ă  faire sur des sports « de mouvement », pour qui, pour quoi, et avec qui.

Quelles sont les techniques statistiques utilisées dans le cadre de votre activité ?

Pour la partie d’analyse d’image, nous utilisons nos propres mĂ©thodes de computer vision, mais aussi les mĂ©thodes plus performantes de dĂ©tection de personnes basĂ©es sur du deep learning. Il est intĂ©ressant de noter que la rĂ©volution qui arrive est apportĂ©e par les modĂšles de pose comme OpenPose : Ă  partir de l’image d’une personne, ces modĂšles d’apprentissage statistique infĂšrent sa posture et permettent donc de « digitaliser » sa structure squelettique. En mouvement on peut donc diagnostiquer une posture, une attitude, une dĂ©marche, une vitesse, une intention. Outre la position 2D du joueur que nous pouvons suivre prĂ©cisĂ©ment, on pourra dĂ©sormais suivre et analyser l’ensemble de ses mouvements.

Comme le rappelait dĂ©jĂ  Yoann Cruyff, « Quand vous jouez un match, il est statistiquement prouvĂ© que les joueurs n’ont la balle que 3 minutes en moyenne. Le plus important, c’est donc ce que vous faites pendant ces 87 minutes oĂč vous n’avez pas la balle. C’est ce qui fait que vous ĂȘtes un bon joueur ou non. » Nous essayons donc d’analyser l’ensemble du jeu avec et sans ballon, en prenant en compte le contexte de jeu. En gros nous utilisons les mĂ©thodes d’espĂ©rance conditionnelle, en conditionnant sur le contexte de jeu pour obtenir des indicateurs de performance plus pertinents. Par exemple, ce qui caractĂ©rise notamment un trĂšs bon joueur par rapport a un joueur moyen, c’est sa capacitĂ© Ă  rĂ©sister Ă  la pression. Autrement dit, les performances d’un trĂšs bon joueur ne doivent pas se dĂ©grader quand la pression augmente.

Nous ajoutons ensuite des couches de classification avec surtout la crĂ©ation de 800 KPI par joueur et par match (6). Ceci nous sert Ă  dĂ©finir des profils types de joueurs trĂšs utiles pour le recrutement. Un sujet d’étude trĂšs intĂ©ressant dans ce domaine est la prĂ©diction de performance d’un joueur d’une Ă©quipe Ă  une autre : comment simuler l’adaptation d’un joueur d’un championnat Ă  un autre, ou d’une Ă©quipe Ă  une autre. Enfin, les Ă©vĂšnements particuliers restent Ă©videmment les plus durs Ă  analyser. Sur les tirs de loin, la probabilitĂ© de rĂ©ussir ce tir dĂ©pend de la proximitĂ© du gardien Ă  sa ligne de but, mais le joueur ne dĂ©clenche justement souvent sa frappe que si le gardien sort loin de ses bases.

Une autre notion trĂšs utilisĂ©e sur laquelle nous travaillons beaucoup est celle d’Expected Goals – ou « buts attendus ». En fait il ne s’agit pas juste du nombre de buts que l’équipe aurait dĂ» marquer au regard de ses tirs effectuĂ©s. Il s’agit de voir par exemple l’apport de chaque action de joueur Ă  l’Expected Goal global de l’équipe : un joueur peut apporter de l‘Expected Goal en crĂ©ant une occasion de but ou en faisant une rĂ©cupĂ©ration proche de son but mais il peut aussi en perdre en perdant la balle ou en prenant une mauvaise dĂ©cision. Ainsi ce critĂšre s’est gĂ©nĂ©ralisĂ© depuis quelques annĂ©es et reflĂšte la somme des performances de l’équipe, du gardien Ă  l’attaquant. C’est le plus intĂ©ressant : ĂȘtre capable d’exprimer la performance d’un joueur comme sa contribution Ă  celle de son Ă©quipe. Avoir le pourcentage de passes rĂ©ussies ou ratĂ©es, c’est bien mais pas suffisant. Ce qui est dĂ©cisif est de ramener la performance Ă  un contexte de jeu. Pour un financier, je dirais qu’estimer un Expected Goal en amont des situations de tir est assez Ă©quivalent dans l’esprit au pricing backward des options.

Que manquerait-il justement si l’on composait une Ă©quipe uniquement avec des statistiques, comme dans le film « Moneyball » ?

Les donnĂ©es disent beaucoup mais les paramĂštres humains sont trĂšs importants et potentialisent le talent. Il y a des leaders, des joueurs qui tirent une Ă©quipe vers le haut, et il faut mĂ©langer les profils. L’équipe d’Arsenal que j’ai soutenue dans mes annĂ©es londoniennes avait des joueurs incroyables techniquement mais qui manquaient de caractĂšre. L’expĂ©rience et le leadership, la langue et les aptitudes de communication, l’entente rĂ©elle entre les joueurs, ce sont des composantes essentielles dans les faits.

Dans leur livre cĂ©lĂšbre, Szymanksi et Kuper (2) avaient identifiĂ© que les joueurs « ont peur des donnĂ©es ». Beaucoup de consultants et anciens joueurs marquent leur distance vis-Ă -vis de l’utilisation des donnĂ©es. Comprenez-vous cette dĂ©fiance ?

Cela ne me choque pas, je peux le comprendre. Cela vient peut-ĂȘtre d’un problĂšme culturel qui perdure mais qui change doucement avec le temps. Outre les joueurs, les journalistes ont une formation littĂ©raire. Le chiffre pour le chiffre ramĂšne Ă  une analyse froide.

CĂŽtĂ© terrain, JosĂ© Mourinho (4) a beaucoup utilisĂ© les donnĂ©es et a produit un jeu de protection et de dĂ©fense trĂšs poussĂ©, un peu destructif. Peut-ĂȘtre que jusqu’ici les donnĂ©es avaient Ă©tĂ© utilisĂ©es de maniĂšre nĂ©gative (au sens du jeu). A contrario, Pep Guardiola (5), entraĂźneur de Manchester City est champion d’Angleterre et en finale de Ligue des Champions cette annĂ©e tout en Ă©tant un trĂšs grand utilisateur de donnĂ©es. Mais Guardiola a une idĂ©e de jeu trĂšs nette, trĂšs marquĂ©e, basĂ©e sur la possession et il utilise les donnĂ©es pour minimiser ses risques. Sur un match, cela ne vous garantit pas de gagner. Sur un match seul, les donnĂ©es ne vous font pas gagner la partie. Mais sur une saison elles peuvent vous aident Ă  gagner un championnat. C’est la loi des grands nombres : si les donnĂ©es vous aident Ă  rĂ©duire vos risques, la rĂ©pĂ©tition jouera en votre faveur et votre approche sera payante Ă  long terme.

Enfin, sans donnĂ©es il est compliquĂ© de dĂ©finir la performance de certains postes. Un match ratĂ© ou rĂ©ussi pour un attaquant est facile Ă  dĂ©terminer puisque celui-ci doit ĂȘtre dĂ©cisif quand il en a l’opportunitĂ©. C’est plus compliquĂ© pour les milieux qui sont au cƓur du jeu et ont pour mission de fluidifier le jeu : un grand milieu peut livrer une grande performance en Ă©tant plutĂŽt « invisible » aux yeux du spectateur.

Pourriez-vous vous diriger vers d’autres sports ?

Alors mĂȘme que le monde du football est le plus adaptĂ© Ă  nos techniques, il faut toujours du temps pour y convaincre les acteurs du jeu et les clubs. A l’opposĂ© les clubs de rugby sont trĂšs intĂ©ressĂ©s par notre dĂ©marche et nous contactent mĂȘme spontanĂ©ment. Le rugby sera probablement une suite envisageable. Le football amĂ©ricain pourrait ĂȘtre aussi un dĂ©bouchĂ©. Une finale de Ligue des Champions gĂ©nĂšre Ă  peu prĂšs autant de « buzz » qu’un Super Bowl. Le football amĂ©ricain est dĂ©jĂ  lui aussi un sport de chiffres mais il reste tant Ă  faire dans ce type de sports « dynamique » (au contraire du baseball oĂč par exemple des sĂ©quences figĂ©es sont rĂ©pĂ©tĂ©es inlassablement).

Une derniÚre éventualité serait le tennis : dans ce cas nos clients seraient directement les joueurs (ou leur entraßneur, leur staff technique) pour améliorer leur jeu ou cataloguer leurs adversaires. Les montants et les volumes de données sont pour le moment trÚs inférieurs à ceux du football, mais dans ce cas précis, les modÚles de pose marchent trÚs bien et ce serait une application naturelle.

Un mot pour conclure ?

Il y a encore beaucoup Ă  faire mais la « vision » reste totalement nĂ©cessaire : la vidĂ©o reste un Ă©lĂ©ment de base pour l’obtention de la data. Tout cela va s’industrialiser et les clubs vont de plus en plus internaliser la nĂ©cessitĂ© de travailler avec des donnĂ©es qui font dĂ©jĂ  partie de leur quotidien.


Notes :

(1) « Moneyball » : « Le StratĂšge » en français, film tirĂ© d’une histoire vraie – voir ici : https://www.imdb.com/title/tt1210166/

(2) Szymanski et Kuper – Les attaquants les plus chers ne sont pas ceux qui marquent le plus – DE BOECK SUP (2015) – https://www.amazon.fr/attaquants-plus-chers-sont-marquent/dp/2804171531

(3) NDLA : intuitivement, le spectateur « suit » Ă  la tĂ©lĂ©vision principalement le ballon. Historiquement, l’analyse s’est donc souvent retrouvĂ©e descriptive des actions associĂ©es au « porteur » de balle : X passe Ă  Y, X se retourne, X tire, etc. Ces analyses ne sont plus suffisantes. Il faut ĂȘtre dĂ©sormais capable d’analyser ce qui se passe dans le reste du jeu, Ă  savoir les Ă©vĂšnements sans le ballon : quel joueur se dĂ©place dans quelle zone, mĂȘme s’il ne reçoit pas de passe, quel joueur effectue un appel, etc. La description des Ă©vĂšnements complexes avec le ballon peut ĂȘtre la qualification d’une passe ou d’un tir, une faute, un accrochage, etc.

(4) JosĂ© Mourinho : entraĂźneur star de la dĂ©cennie 2000-2010, passĂ© par Porto, Chelsea, l’Inter, Manchester United, rĂ©cemment licenciĂ© de Tottenham et qui prendra la responsabilitĂ© de l’équipe de l’AS Rome en AoĂ»t 2021 – https://fr.wikipedia.org/wiki/Jos%C3%A9_Mourinho

(5) Josep « Pep » Guardiola : ancien joueur du FC Barcelone, thĂ©oricien du jeu dĂ©sormais entraĂźneur, passĂ© par le FC Barcelone, le Bayern Munich et dĂ©sormais Manchester City, souvent considĂ©rĂ© comme le meilleur entraĂźneur du monde Ă  l’heure actuelle – https://fr.wikipedia.org/wiki/Pep_Guardiola

(6)  KPI = Key Performance Indicators, soit 800 variables d’intĂ©rĂȘt liĂ©es Ă  la performance du joueur sur le match.

(7) https://www.actuia.com/actualite/un-club-de-football-anglais-sassocie-avec-deepmind-pour-ameliorer-ses-performances-en-match/

(8) Opta Sports est un pionnier et l’un des plus grands acteurs dans le domaine de la donnĂ©es sportive – https://www.optasports.com/

Pierre Miralles
Les derniers articles par Pierre Miralles (tout voir)