Introduction

Cet article est issu d’un projet de statistiques appliquĂ©es consacrĂ© au calcul des estimations de scores au football : estimation de la probabilitĂ© d’une victoire, d’un match nul, ou d’une dĂ©faite lors d’un match. Le projet a Ă©tĂ© encadrĂ© par Alexander Buchholz et Vincent Cottet.


Compte tenu du dĂ©veloppement du marchĂ© des jeux et des pronostics, divers travaux ont Ă©tĂ© effectuĂ©s Ă  ce sujet au cours des derniĂšres annĂ©es. On pourra lire par exemple l’interview de Jean-Louis Foulley, dans Variances (mai 2017). Deux publications ont particuliĂšrement attirĂ© notre attention, notamment car elles utilisent deux modĂšles proches mais utilisent deux approches diffĂ©rentes ; il s’agit :

  • des travaux de Dixon et Coles, qui optent pour une approche frĂ©quentiste (Mark J. Dixon, Stuart G. Coles, Modelling Association Football Scores and Inefficiencies in the Football Betting Market, Journal of the Royal Statistical Society : Series C (Applied Statistics), 46(2), 1997
  • des travaux de Baio et Blangiardo qui utilisent plutĂŽt une approche bayĂ©sienne (Gianluca Baio, Marta Blangiardo, Bayesian Hierarchical Model for the Prediction of Football Results, Journal of Applied Statistics, 37(2), 2010.

L’objectif du projet est de comparer les rĂ©sultats obtenus par ces deux approches Ă  partir d’un mĂȘme modĂšle et sur les mĂȘmes donnĂ©es, et donc pouvoir estimer les cotes lors d’un match de football.

1. Présentation des données

Nous nous intéressons aux résultats de la saison 2015-2016 de la Ligue 1 de la Ligue Nationale de Football (auparavant appelé championnat de premiÚre division française de football).

Nous nous concentrons uniquement sur les scores finaux de chaque match.

Chaque ligne du tableau de donnĂ©es correspond Ă  un match. Le championnat de Ligue 1 Ă©tant constituĂ© de 20 Ă©quipes, chaque couple d’équipes se rencontrant deux fois (une fois Ă  domicile et une fois Ă  l’extĂ©rieur), le tableau est constituĂ© de 380 lignes.

Chacune des Ă©quipes est indicĂ©e (_{}^{i}home et _{}^{i}away ), et la colonne “JournĂ©e” correspond au numĂ©ro de la journĂ©e oĂč a eu lieu ce match.

Par exemple, la premiĂšre ligne correspond au match Lille – Paris SG, match de la premiĂšre journĂ©e se jouant Ă  Lille, match gagnĂ© par le PSG sur le score de 1 Ă  0.

2. Le modÚle utilisé

Nous allons décrire notre modÚle.

Soient un match opposant deux Ă©quipes i et j, i jouant Ă  domicile et j Ă  l’extĂ©rieur. Tout comme les deux articles citĂ©s en rĂ©fĂ©rence, nous faisons plusieurs hypothĂšses majeures :

  • A chaque match, le nombre de buts marquĂ©s par l’Ă©quipe Ă  domicile, notĂ© x_{{i, j}} et ceux marquĂ©s par l’Ă©quipe Ă  l’extĂ©rieur, notĂ© y_{{i, j}}, sont indĂ©pendants.
  • Chaque Ă©quipe i possĂšde un paramĂštre d’attaque notĂ© \alpha_{{i}}  et un paramĂštre de dĂ©fense notĂ© \beta_{{i}} . Plus le paramĂštre \alpha_{{i}}  est Ă©levĂ©, plus l’Ă©quipe a de chances de marquer un but. Tandis que plus le paramĂštre de dĂ©fense \beta_{{i}} est Ă©levĂ©, plus l’Ă©quipe encaisse de buts.
  • Un autre paramĂštre A dĂ©crit l’avantage d’une Ă©quipe Ă  jouer devant son public (cf point suivant).
  • La distribution des buts suit une loi de Poisson :

oĂč

 

Afin de rendre le modĂšle identifiable, nous y ajoutons la contrainte suivante :

oĂč n est le nombre d’Ă©quipes de la ligue (n = 20).

3. L’approche frĂ©quentiste

L’approche frĂ©quentiste est celle adoptĂ©e par Dixon et Coles dans leurs travaux. Elle consiste Ă  calculer la log-vraisemblance du modĂšle, et de calculer les estimateurs de façon Ă  la maximiser :

avec :

Ainsi nous obtenons des estimateurs des paramÚtres \alpha_{{i}} et \beta_{{i}} pour chacune des équipes, et du paramÚtre A.

Nous calculons Ă©galement l’information de Fisher qui permet de faire une approximation des Ă©carts-types des estimateurs des paramĂštres. Nous avons Ă©galement fait le calcul des probabilitĂ©s du score de chaque match par cette approche, qui permet d’obtenir les probabilitĂ©s de victoire/nul/dĂ©faite. Il s’en suit la possibilitĂ© d’établir des cotes que nous pouvons par la suite comparer Ă  celles Ă©tablies par les bookmakers.

4. L’approche bayĂ©sienne

L’approche bayĂ©sienne, quant Ă  elle, est utilisĂ© par Biao et Blangiardo dans leur article. Comme le nombre de donnĂ©es utilisĂ©es est somme toute assez faible, l’approche bayĂ©sienne prĂ©sente l’avantage d’avoir des Ă©carts-types plus faibles que l’approche frĂ©quentiste.

Nous nous basons sur des mĂ©thodes de Monte Carlo afin d’obtenir les estimations des paramĂštres. Les lois a priori des αi et ÎČi et  sont des lois log-normales, et les moyenne et les Ă©carts-types de ces lois a priori des \alpha_{{i}} et \beta_{{i}} et A suivent respectivement des lois normale et gamma. Nous faisons ainsi une estimation de la loi a posteriori qui nĂ©cessite, compte tenu de la difficultĂ© Ă  la calculer, une estimation par l’algorithme de Metropolis-Hastings.

De mĂȘme, nous calculons Ă©galement les probabilitĂ©s de rĂ©sultat de chaque match.

5. Résultats

Les estimations des diffĂ©rents paramĂštres d’attaque et de dĂ©fense pour chaque Ă©quipe conduisent Ă  des rĂ©sultats trĂšs similaires entre les deux approches.

Une diffĂ©rence apparaĂźt au niveau des Ă©carts-types, beaucoup moins Ă©levĂ©s pour l’approche bayĂ©sienne.

Pour la paramĂštre A :

Pour les paramÚtres \alpha_{{i}} et \beta_{{i}} :

Nous observons ainsi que les estimations sont trĂšs proches selon les deux approches. La diffĂ©rence majeure porte sur les Ă©cart-types, avec une approche bayĂ©sienne plus prĂ©cise. Nous pouvons notamment observer que le PSG, qui a largement dominĂ© la Ligue 1 lors de la saison 2015-2016, a le paramĂštre \alpha_{{i}} le plus Ă©levĂ© et le paramĂštre \beta_{{i}} le plus faible. C’est l’inverse pour Troyes qui a terminĂ© dernier.

Nous avons Ă©galement pu calculer les probabilitĂ©s de score selon les deux approches. En voici un exemple pour le match Angers – Toulouse :

Il est donc possible de calculer les cotes pour chaque match, à travers les deux approches les plus utilisées, qui conduisent à des résultats globalement comparables.

Pour conclure, nous avons Ă©tudiĂ© deux pistes d’approfondissement. La premiĂšre a consistĂ© Ă  Ă©tudier une stratĂ©gie de pari sportif sur les matches, basĂ©e sur l’espĂ©rance de gain. Une seconde est d’entrer dans le dĂ©tail de la rĂ©alitĂ© d’une saison de championnat de football par l’intĂ©gration de variables exogĂšnes : par exemple, quel impact sur les paramĂštres du modĂšle peut avoir un changement d’entraĂźneur en cours de saison, ce qui est une pratique non rare. Plus gĂ©nĂ©ralement, peut-on intĂ©grer d’autres variables exogĂšnes comme les achats ou ventes de joueurs au mercato d’hiver ?

Elie Azeraf, Yassine Benazzou, Amine Hammami et Yannick Terme
Les derniers articles par Elie Azeraf, Yassine Benazzou, Amine Hammami et Yannick Terme (tout voir)