Introduction
Cet article est issu dâun projet de statistiques appliquĂ©es consacrĂ© au calcul des estimations de scores au football : estimation de la probabilitĂ© d’une victoire, d’un match nul, ou d’une dĂ©faite lors d’un match. Le projet a Ă©tĂ© encadrĂ© par Alexander Buchholz et Vincent Cottet.
Compte tenu du dĂ©veloppement du marchĂ© des jeux et des pronostics, divers travaux ont Ă©tĂ© effectuĂ©s Ă ce sujet au cours des derniĂšres annĂ©es. On pourra lire par exemple lâinterview de Jean-Louis Foulley, dans Variances (mai 2017). Deux publications ont particuliĂšrement attirĂ© notre attention, notamment car elles utilisent deux modĂšles proches mais utilisent deux approches diffĂ©rentes ; il sâagit :
- des travaux de Dixon et Coles, qui optent pour une approche fréquentiste (Mark J. Dixon, Stuart G. Coles, Modelling Association Football Scores and Inefficiencies in the Football Betting Market, Journal of the Royal Statistical Society : Series C (Applied Statistics), 46(2), 1997
- des travaux de Baio et Blangiardo qui utilisent plutÎt une approche bayésienne (Gianluca Baio, Marta Blangiardo, Bayesian Hierarchical Model for the Prediction of Football Results, Journal of Applied Statistics, 37(2), 2010.
L’objectif du projet est de comparer les rĂ©sultats obtenus par ces deux approches Ă partir d’un mĂȘme modĂšle et sur les mĂȘmes donnĂ©es, et donc pouvoir estimer les cotes lors d’un match de football.
1. Présentation des données
Nous nous intéressons aux résultats de la saison 2015-2016 de la Ligue 1 de la Ligue Nationale de Football (auparavant appelé championnat de premiÚre division française de football).
Nous nous concentrons uniquement sur les scores finaux de chaque match.
Chaque ligne du tableau de donnĂ©es correspond Ă un match. Le championnat de Ligue 1 Ă©tant constituĂ© de 20 Ă©quipes, chaque couple dâĂ©quipes se rencontrant deux fois (une fois Ă domicile et une fois Ă l’extĂ©rieur), le tableau est constituĂ© de 380 lignes.
Chacune des équipes est indicée ( et
 ), et la colonne âJournĂ©eâ correspond au numĂ©ro de la journĂ©e oĂč a eu lieu ce match.
Par exemple, la premiĂšre ligne correspond au match Lille â Paris SG, match de la premiĂšre journĂ©e se jouant Ă Lille, match gagnĂ© par le PSG sur le score de 1 Ă 0.
2. Le modÚle utilisé
Nous allons décrire notre modÚle.
Soient un match opposant deux Ă©quipes i et j, i jouant Ă domicile et j Ă l’extĂ©rieur. Tout comme les deux articles citĂ©s en rĂ©fĂ©rence, nous faisons plusieurs hypothĂšses majeures :
- A chaque match, le nombre de buts marquĂ©s par l’Ă©quipe Ă domicile, notĂ©
 et ceux marquĂ©s par l’Ă©quipe Ă l’extĂ©rieur, notĂ©
, sont indépendants.
- Chaque Ă©quipe i possĂšde un paramĂštre d’attaque notĂ©
 et un paramÚtre de défense noté
. Plus le paramĂštreÂ
 est Ă©levĂ©, plus l’Ă©quipe a de chances de marquer un but. Tandis que plus le paramĂštre de dĂ©fense
 est Ă©levĂ©, plus l’Ă©quipe encaisse de buts.
- Un autre paramĂštre A dĂ©crit l’avantage d’une Ă©quipe Ă jouer devant son public (cf point suivant).
- La distribution des buts suit une loi de Poisson :
oĂč
Afin de rendre le modĂšle identifiable, nous y ajoutons la contrainte suivante :
oĂč n est le nombre d’Ă©quipes de la ligue (n = 20).
3. Lâapproche frĂ©quentiste
Lâapproche frĂ©quentiste est celle adoptĂ©e par Dixon et Coles dans leurs travaux. Elle consiste Ă calculer la log-vraisemblance du modĂšle, et de calculer les estimateurs de façon Ă la maximiser :
avec :
Ainsi nous obtenons des estimateurs des paramÚtres  et
 pour chacune des équipes, et du paramÚtre A.
Nous calculons Ă©galement lâinformation de Fisher qui permet de faire une approximation des Ă©carts-types des estimateurs des paramĂštres. Nous avons Ă©galement fait le calcul des probabilitĂ©s du score de chaque match par cette approche, qui permet dâobtenir les probabilitĂ©s de victoire/nul/dĂ©faite. Il sâen suit la possibilitĂ© dâĂ©tablir des cotes que nous pouvons par la suite comparer Ă celles Ă©tablies par les bookmakers.
4. Lâapproche bayĂ©sienne
Lâapproche bayĂ©sienne, quant Ă elle, est utilisĂ© par Biao et Blangiardo dans leur article. Comme le nombre de donnĂ©es utilisĂ©es est somme toute assez faible, lâapproche bayĂ©sienne prĂ©sente lâavantage dâavoir des Ă©carts-types plus faibles que lâapproche frĂ©quentiste.
Nous nous basons sur des mĂ©thodes de Monte Carlo afin dâobtenir les estimations des paramĂštres. Les lois a priori des αi et ÎČi et  sont des lois log-normales, et les moyenne et les Ă©carts-types de ces lois a priori des  et
 et A suivent respectivement des lois normale et gamma. Nous faisons ainsi une estimation de la loi a posteriori qui nĂ©cessite, compte tenu de la difficultĂ© Ă la calculer, une estimation par lâalgorithme de Metropolis-Hastings.
De mĂȘme, nous calculons Ă©galement les probabilitĂ©s de rĂ©sultat de chaque match.
5. Résultats
Les estimations des diffĂ©rents paramĂštres dâattaque et de dĂ©fense pour chaque Ă©quipe conduisent Ă des rĂ©sultats trĂšs similaires entre les deux approches.
Une diffĂ©rence apparaĂźt au niveau des Ă©carts-types, beaucoup moins Ă©levĂ©s pour lâapproche bayĂ©sienne.
Pour la paramĂštre A :
Pour les paramÚtres  et
 :
Nous observons ainsi que les estimations sont trÚs proches selon les deux approches. La différence majeure porte sur les écart-types, avec une approche bayésienne plus précise. Nous pouvons notamment observer que le PSG, qui a largement dominé la Ligue 1 lors de la saison 2015-2016, a le paramÚtre  le plus élevé et le paramÚtre
 le plus faible. Câest lâinverse pour Troyes qui a terminĂ© dernier.
Nous avons Ă©galement pu calculer les probabilitĂ©s de score selon les deux approches. En voici un exemple pour le match Angers â Toulouse :
Il est donc possible de calculer les cotes pour chaque match, à travers les deux approches les plus utilisées, qui conduisent à des résultats globalement comparables.
Pour conclure, nous avons Ă©tudiĂ© deux pistes dâapprofondissement. La premiĂšre a consistĂ© Ă Ă©tudier une stratĂ©gie de pari sportif sur les matches, basĂ©e sur lâespĂ©rance de gain. Une seconde est dâentrer dans le dĂ©tail de la rĂ©alitĂ© dâune saison de championnat de football par lâintĂ©gration de variables exogĂšnes : par exemple, quel impact sur les paramĂštres du modĂšle peut avoir un changement dâentraĂźneur en cours de saison, ce qui est une pratique non rare. Plus gĂ©nĂ©ralement, peut-on intĂ©grer dâautres variables exogĂšnes comme les achats ou ventes de joueurs au mercato dâhiver ?
- Estimation de cotes au football - 13 septembre 2017
Commentaires récents