Selon les acteurs du football, le football est un sport indécis où, sur une seule occurrence, tout le monde peut vaincre tout le monde ; l’histoire de la Coupe de France en fournit la preuve. C’est ce qui fait la beauté de ce sport. La question de la prévision d’un résultat mérite d’être posée : peut-on prédire le football de façon scientifique? En particulier, les méthodes prédictives récemment apparues peuvent-elles être appliquées ?

Le Machine Learning

L’idée-même d’intelligence artificielle (IA) semble naître en 1950 avec la communication d’Alan Turing (le père de la machine éponyme) intitulée « Computing Machinery and Intelligence ». Il s’agit de transmettre de l’intelligence aux ordinateurs. Son champ de recherche est étendu dans les années 50 par des personnalités comme John McCarthy, Marvin Minsky, ou encore Herbert Simon.

L’apprentissage automatique statistique (Machine Learning) est donc une forme d’intelligence artificielle qui confère aux ordinateurs la capacité d’obtenir, par la mise en place d’algorithmes, une analyse prédictive à partir de données récoltées dans un but précis. Le machine learning permet ainsi d’analyser une situation actuelle grâce aux situations qui ont eu lieu dans le passé; par exemple, les techniques de machine learning sont utilisées pour déterminer les probabilités de diagnostic médical, définir la tendance des actions du CAC40,…. Finance, assurance, médecine, marketing entre autres sont des domaines où ces outils sont employés. Les points communs entre ces domaines sont, d’une part, les datas et, d’autre part, la volonté d’analyser une problématique. On peut donc imaginer que le football et le sport en général, très riches en données, peuvent bénéficier de l’apport du machine learning.

Les données

La collecte des données dans le football est fastidieuse ; en effet, il faut suivre chaque équipe, chaque joueur, chaque match, récolter les scores mais aussi des éléments plus qualitatifs comme l’état de forme des joueurs ou de l’entraineur… Cette récolte de données est très coûteuse pour un individu lambda, c’est pourquoi il est préférable de préconiser la récolte des cotes des différents bookmakers ; en effet, on peut supposer que ces cotes reflètent assez bien la tendance du moment. Plusieurs sites web proposent un historique de cotes.

Malheureusement les cotes permettent de prédire uniquement 50% des résultats, ce qui n’est pas suffisant pour optimiser le gain du joueur. L’idéal est de prédire au-delà de 60% de bons résultats. Comment ?

Identifier et Cibler

Le machine learning n’est pas utile dans le cadre des paris sportifs, si l’on parie sur le favori. Néanmoins, il fournit une information capitale qui est la probabilité pour chaque résultat.

Ainsi, il est possible de déterminer la moyenne de gains pour chaque cote ; il suffit donc de miser sur la cote ayant une rentabilité positive.

La rentabilité moyenne représente le gain moyen pour chaque événement, dans notre cas il s’agit de : victoire à domicile, match nul ou victoire à l’extérieur. Cette rentabilité moyenne s’exprime par la formule suivante :

Cote de l’événement * Probabilité de l’événement *Investissement – Investissement.

Si la rentabilité calculée pour chaque événement est positive, alors cela signifie qu’elle est statistiquement intéressante.

Prenons un exemple : lors du match Crystal Palace  – Arsenal, la cote de Crystal Palace est de 4.5, sa probabilité de victoire est de 22.62%, la rentabilité moyenne pour cet événement est de 1.80% ; elle est positive et donc statistiquement rentable.

Cotes anglaises / Cotes françaises

Historiquement, les côtes anglaises sont plus élevées que les cotes françaises. Cela est dû au fait qu’en Angleterre, la concurrence entre bookmakers est plus féroce due à leur nombre. En France, pour pouvoir être reconnu officiellement, il faut intégrer l’ARJEL (Autorité de Régulation des Jeux En Ligne), créé en 2010. Huit bookmakers en ligne sont dans ce cas ; en Angleterre, nous pouvons comptabiliser plus de 16 bookmakers en ligne. L’identification des paris à effectuer sur le marché anglais via l’étude des cotes représente un match sur quatre, alors qu’en France, il s’agit de cinq matches sur cent.

Les cotes françaises inintéressantes?

Avec seulement 5% de cotes intéressantes, l’étude n’est pas concluante. En effet, cela représente 5 paris par semaine, soit 190 paris par an (il y a 38 semaines avec football), une convergence de la rentabilité moyenne calculée n’est donc pas assurée. Il est donc primordial d’intégrer de nouvelles informations dans la base de données, par exemple, l’ajout des ratios de victoires, nuls ou défaites, du classement établi sur les 10 derniers matchs, ainsi que du nombre de buts inscrits et encaissés.

J’ai donc testé cela sur une base de données de plus de 100 000 matches, et les résultats ont été très surprenants.

En effet, s’il est vrai que l’apparition de cotes rentables passe de 1/4 à 1/2 pour le marché anglais et de 5/100 à 15/100 pour le marché français, la qualité des prédictions s’est détériorée. Le nombre de bons pronostics annoncé par l’algorithme coïncide à 95% avec les résultats observés. Il y a donc surestimation des pronostics, ainsi les rentabilités sont-elles aussi surestimées.

De plus, une autre étude basée sur l’ensemble des informations précédemment évoquées, à l’exception des cotes, voit baisser le pouvoir global de prédiction de 50% à 45%.

L’apport de ces informations est donc inutile au vu des résultats des deux études.

A priori, le marché français ne fournit pas assez d’éléments en libre-service pour identifier les paris rentables.

Les classements et le budget

Au niveau des pays, le classement FIFA utilisé pour classer les pays est souvent décrié par les journalistes, la critique majeure étant qu’une victoire de la France face à une nation mineure d’Europe peut rapporter plus de points qu’une victoire face à une nation majeure d’Afrique ou d’Asie.

Le classement ELO permet de classer les joueurs d’échec (NDLR : voir à ce propos l’interview de Jean-Louis Foulley). Ce classement attribue des points en fonction de l’adversité. Gagner contre un joueur fort rapporte plus de points que gagner contre un joueur faible. De la même manière, perdre contre un fort fait perdre plus de points que perdre contre un faible ; quant au match nul, il a un impact positif pour l’outsider et un impact négatif pour le favori.

Le budget est souvent avancé par les journalistes et les joueurs pour justifier la contreperformance ; en effet un budget de club élevé permet en théorie de recruter des joueurs de qualité mais aussi en nombre suffisant afin de pouvoir faire tourner l’effectif durant le match et la saison.

Ainsi, il m’a semblé intéressant d’ajouter le budget de chaque équipe dans l’étude.

Le budget peut être trouvé sur plusieurs sites ; personnellement, j’ai puisé mes sources sur le site transfermarkt.fr.

En intégrant ce classement et le budget dans la base de données on observe les résultats suivants :

  • 30% des cotes françaises sont détectées comme rentables, à comparer avec 74% pour l’Angleterre.
  • Le nombre de résultats attendus coïncide à 99.4% avec les résultats observés et le gain observé est de l’ordre de 3% en moyenne.

Conclusion

Le machine learning peut donc permettre de cibler les matchs sur lesquels parier, des ajouts plus poussés pouvant être entrepris comme l’obtention de la feuille de match de chaque équipe et la connaissance des statistiques de chaque joueur présent. Bien entendu, cette collecte de données demande beaucoup d’organisation et de méthode.

L’étude peut être améliorée si l’on connait l’effectif disponible poste par poste pour chaque équipe ; pour cela, il faudrait une base de données FIFA/PES/FootBall Manager (PES pour Pro Evolution Soccer) afin de connaitre la note de chaque joueur, ainsi que sa valeur.

L’étude sur les paris sportifs est un premier pas afin de démontrer que le machine learning peut être bénéfique dans le monde du sport. En effet, nous pouvons envisager de l’utiliser dans le but de cibler les joueurs prometteurs de demain ou de cibler les joueurs à fort potentiel de revente. Pour ce type d’études, il faudrait des statistiques précises sur chaque joueur que peuvent apporter les scouts des clubs qui visualisent beaucoup de matchs et fournissent des rapports détaillés pour chaque club (pour les non-spécialistes, un scout de club de football est un émissaire qui suit un certain nombre de clubs formateurs, détecte les espoirs et les talents). De plus, le machine learning pourra aussi détruire de fausses idées reçues ; en effet, combien de fois avons-nous entendu dans les médias que telle ou telle équipe a une dynamique positive et donc que cela lui donne plus de chance pour la suite de la compétition. Or l’étude qui a été menée montre que la dynamique est trompeuse.

En outre, le machine learning pourra permettre aux entraineurs d’identifier les spécificités nécessaires à développer pour chaque poste, de manière à améliorer le rendement des joueurs.

Il me parait évident que l’introduction du machine learning dans le monde sportif permettra de faire un réel bon en avant dans le recrutement de joueurs ainsi que les méthodes d’entraînement.

Il serait pertinent que les clubs investissent dans des pôles de data-science ou mettre leurs données disponibles sur des sites de compétitions en ligne.

Ils seront surpris par ce que les data-scientists pourront en tirer.


Sources :

transfermarkt.fr

football-data.co.uk

Apprentissage et Data Mining, cours ENSAE d’Arnak Dalalyan

Machine Learning in computational biology, cours ENSAE de Jean-Philippe Vert

David Davila
Les derniers articles par David Davila (tout voir)