{"id":2252,"date":"2017-05-24T11:19:16","date_gmt":"2017-05-24T09:19:16","guid":{"rendered":"http:\/\/variances.eu\/?p=2252"},"modified":"2017-05-24T11:21:56","modified_gmt":"2017-05-24T09:21:56","slug":"predictions-foot-co","status":"publish","type":"post","link":"https:\/\/variances.eu\/?p=2252","title":{"rendered":"Pr\u00e9dictions et Foot &#038; Co"},"content":{"rendered":"<p>Selon les acteurs du football, le football est un sport ind\u00e9cis o\u00f9, sur une seule occurrence, tout le monde peut vaincre tout le monde\u00a0; l\u2019histoire de la Coupe de France en fournit la preuve. C\u2019est ce qui fait la beaut\u00e9 de ce sport. La question de la pr\u00e9vision d\u2019un r\u00e9sultat m\u00e9rite d\u2019\u00eatre pos\u00e9e\u00a0: peut-on pr\u00e9dire le football de fa\u00e7on scientifique? En particulier, les m\u00e9thodes pr\u00e9dictives r\u00e9cemment apparues peuvent-elles \u00eatre appliqu\u00e9es\u00a0?<\/p>\n<h3><strong><em>Le Machine Learning<\/em><\/strong><\/h3>\n<p>L\u2019id\u00e9e-m\u00eame d&rsquo;intelligence artificielle (IA) semble na\u00eetre en 1950 avec la communication d\u2019Alan Turing (le p\u00e8re de la machine \u00e9ponyme) intitul\u00e9e <em>\u00ab\u00a0Computing Machinery and Intelligence\u00a0\u00bb<\/em>. Il s\u2019agit de transmettre de l\u2019intelligence aux ordinateurs. Son champ de recherche est \u00e9tendu dans les ann\u00e9es 50 par des personnalit\u00e9s comme John McCarthy, Marvin Minsky, ou encore Herbert Simon.<\/p>\n<p>L&rsquo;apprentissage automatique statistique (<em>Machine Learning<\/em>) est donc une forme d&rsquo;intelligence artificielle qui conf\u00e8re aux ordinateurs la capacit\u00e9 d\u2019obtenir, par la mise en place\u00a0d\u2019algorithmes,\u00a0une\u00a0analyse pr\u00e9dictive\u00a0\u00e0 partir de donn\u00e9es r\u00e9colt\u00e9es dans un but pr\u00e9cis. Le <em>machine learning<\/em> permet ainsi d&rsquo;analyser une situation actuelle gr\u00e2ce aux situations qui ont eu lieu dans le pass\u00e9; par exemple, les techniques de <em>machine learning<\/em> sont utilis\u00e9es pour d\u00e9terminer les probabilit\u00e9s de diagnostic m\u00e9dical, d\u00e9finir la tendance des actions du CAC40,&#8230;. Finance, assurance, m\u00e9decine, marketing entre autres sont des domaines o\u00f9 ces outils sont employ\u00e9s. Les points communs entre ces domaines sont, d\u2019une part, les datas et, d\u2019autre part, la volont\u00e9 d&rsquo;analyser une probl\u00e9matique. On peut donc imaginer que le football et le sport en g\u00e9n\u00e9ral, tr\u00e8s riches en donn\u00e9es, peuvent b\u00e9n\u00e9ficier de l\u2019apport du machine learning.<\/p>\n<h3><strong><em>Les donn\u00e9es<\/em><\/strong><\/h3>\n<p>La collecte des donn\u00e9es dans le football est fastidieuse ; en effet, il faut suivre chaque \u00e9quipe, chaque joueur, chaque match, r\u00e9colter les scores mais aussi des \u00e9l\u00e9ments plus qualitatifs comme l&rsquo;\u00e9tat de forme des joueurs ou de l&rsquo;entraineur\u2026 Cette r\u00e9colte de donn\u00e9es est tr\u00e8s co\u00fbteuse pour un individu lambda, c&rsquo;est pourquoi il est pr\u00e9f\u00e9rable de pr\u00e9coniser la r\u00e9colte des cotes des diff\u00e9rents bookmakers ; en effet, on peut supposer que ces cotes refl\u00e8tent assez bien la tendance du moment. Plusieurs sites web proposent un historique de cotes.<\/p>\n<p>Malheureusement les cotes permettent de pr\u00e9dire uniquement 50% des r\u00e9sultats, ce qui n&rsquo;est pas suffisant pour optimiser le gain du joueur. L&rsquo;id\u00e9al est de pr\u00e9dire au-del\u00e0 de 60% de bons r\u00e9sultats. Comment\u00a0?<\/p>\n<h3><strong><em>Identifier et Cibler<\/em><\/strong><\/h3>\n<p>Le <em>machine learning<\/em> n&rsquo;est pas utile dans le cadre des paris sportifs, si l&rsquo;on parie sur le favori. N\u00e9anmoins, il fournit une information capitale qui est la probabilit\u00e9 pour chaque r\u00e9sultat.<\/p>\n<p>Ainsi, il est possible de d\u00e9terminer la moyenne de gains pour chaque cote\u00a0; il suffit donc de miser sur la cote ayant une rentabilit\u00e9 positive.<\/p>\n<p>La rentabilit\u00e9 moyenne repr\u00e9sente le gain moyen pour chaque \u00e9v\u00e9nement, dans notre cas il s\u2019agit de\u00a0: victoire \u00e0 domicile, match nul ou victoire \u00e0 l\u2019ext\u00e9rieur. Cette rentabilit\u00e9 moyenne s\u2019exprime par la formule suivante\u00a0:<\/p>\n<p>Cote de l\u2019\u00e9v\u00e9nement * Probabilit\u00e9 de l\u2019\u00e9v\u00e9nement *Investissement \u2013 Investissement.<\/p>\n<p>Si la rentabilit\u00e9 calcul\u00e9e pour chaque \u00e9v\u00e9nement est positive, alors cela signifie qu\u2019elle est statistiquement int\u00e9ressante.<\/p>\n<p>Prenons un exemple\u00a0: lors du match Crystal Palace\u00a0 &#8211; Arsenal, la cote de Crystal Palace est de 4.5, sa probabilit\u00e9 de victoire est de 22.62%, la rentabilit\u00e9 moyenne pour cet \u00e9v\u00e9nement est de 1.80%\u00a0; elle est positive et donc statistiquement rentable.<\/p>\n<h3><strong><em>Cotes anglaises \/ Cotes fran\u00e7aises<\/em><\/strong><\/h3>\n<p>Historiquement, les c\u00f4tes anglaises sont plus \u00e9lev\u00e9es que les cotes fran\u00e7aises. Cela est d\u00fb au fait qu\u2019en Angleterre, la concurrence entre bookmakers est plus f\u00e9roce due \u00e0 leur nombre. En France, pour pouvoir \u00eatre reconnu officiellement, il faut int\u00e9grer l\u2019ARJEL (Autorit\u00e9 de R\u00e9gulation des Jeux En Ligne), cr\u00e9\u00e9 en 2010. Huit bookmakers en ligne sont dans ce cas\u00a0; en Angleterre, nous pouvons comptabiliser plus de 16 bookmakers en ligne. L&rsquo;identification des paris \u00e0 effectuer sur le march\u00e9 anglais via l&rsquo;\u00e9tude des cotes repr\u00e9sente un match sur quatre, alors qu&rsquo;en France, il s&rsquo;agit de cinq matches sur cent.<\/p>\n<h3><strong><em>Les cotes fran\u00e7aises inint\u00e9ressantes?<\/em><\/strong><\/h3>\n<p>Avec seulement 5% de cotes int\u00e9ressantes, l\u2019\u00e9tude n\u2019est pas concluante. En effet, cela repr\u00e9sente 5 paris par semaine, soit 190 paris par an (il y a 38 semaines avec football), une convergence de la rentabilit\u00e9 moyenne calcul\u00e9e n\u2019est donc pas assur\u00e9e. Il est donc primordial d&rsquo;int\u00e9grer de nouvelles informations dans la base de donn\u00e9es, par exemple, l\u2019ajout des ratios de victoires, nuls ou d\u00e9faites, du classement \u00e9tabli sur les 10 derniers matchs, ainsi que du nombre de buts inscrits et encaiss\u00e9s.<\/p>\n<p>J\u2019ai donc test\u00e9 cela sur une base de donn\u00e9es de plus de 100 000 matches, et les r\u00e9sultats ont \u00e9t\u00e9 tr\u00e8s surprenants.<\/p>\n<p>En effet, s&rsquo;il est vrai que l\u2019apparition de cotes rentables passe de 1\/4 \u00e0 1\/2\u00a0pour le march\u00e9 anglais et de 5\/100 \u00e0 15\/100 pour le march\u00e9 fran\u00e7ais, la qualit\u00e9 des pr\u00e9dictions s&rsquo;est d\u00e9t\u00e9rior\u00e9e. Le nombre de bons pronostics annonc\u00e9 par l\u2019algorithme co\u00efncide \u00e0 95% avec les r\u00e9sultats observ\u00e9s. Il y a donc surestimation des pronostics, ainsi les rentabilit\u00e9s sont-elles aussi surestim\u00e9es.<\/p>\n<p>De plus, une autre \u00e9tude bas\u00e9e sur l&rsquo;ensemble des informations pr\u00e9c\u00e9demment \u00e9voqu\u00e9es, \u00e0 l&rsquo;exception des cotes, voit baisser le pouvoir global de pr\u00e9diction de 50% \u00e0 45%.<\/p>\n<p>L\u2019apport de ces informations est donc inutile au vu des r\u00e9sultats des deux \u00e9tudes.<\/p>\n<p>A priori, le march\u00e9 fran\u00e7ais ne fournit pas assez d&rsquo;\u00e9l\u00e9ments en libre-service pour identifier les paris rentables.<\/p>\n<h3><strong><em>Les classements et le budget<\/em><\/strong><\/h3>\n<p>Au niveau des pays, le classement FIFA utilis\u00e9 pour classer les pays est souvent d\u00e9cri\u00e9 par les journalistes, la critique majeure \u00e9tant qu&rsquo;une victoire de la France face \u00e0 une nation mineure d&rsquo;Europe peut rapporter plus de points qu&rsquo;une victoire face \u00e0 une nation majeure d&rsquo;Afrique ou d&rsquo;Asie.<\/p>\n<p>Le classement ELO permet de classer les joueurs d&rsquo;\u00e9chec <em>(NDLR\u00a0: voir \u00e0 ce propos l\u2019interview de Jean-Louis Foulley)<\/em>. Ce classement attribue des points en fonction de l\u2019adversit\u00e9. Gagner contre un joueur fort rapporte plus de points que gagner contre un joueur faible. De la m\u00eame mani\u00e8re, perdre contre un fort fait perdre plus de points que perdre contre un faible\u00a0; quant au match nul, il a un impact positif pour l&rsquo;outsider et un impact n\u00e9gatif pour le favori.<\/p>\n<p>Le budget est souvent avanc\u00e9 par les journalistes et les joueurs pour justifier la contreperformance\u00a0; en effet un budget de club \u00e9lev\u00e9 permet en th\u00e9orie de recruter des joueurs de qualit\u00e9 mais aussi en nombre suffisant afin de pouvoir faire tourner l\u2019effectif durant le match et la saison.<\/p>\n<p>Ainsi, il m\u2019a sembl\u00e9 int\u00e9ressant d\u2019ajouter le budget de chaque \u00e9quipe dans l\u2019\u00e9tude.<\/p>\n<p>Le budget peut \u00eatre trouv\u00e9 sur plusieurs sites\u00a0; personnellement, j\u2019ai puis\u00e9 mes sources sur le site transfermarkt.fr.<\/p>\n<p>En int\u00e9grant ce classement et le budget dans la base de donn\u00e9es\u00a0on observe les r\u00e9sultats suivants\u00a0:<\/p>\n<ul>\n<li>30% des cotes fran\u00e7aises sont d\u00e9tect\u00e9es comme rentables, \u00e0 comparer avec 74% pour l\u2019Angleterre.<\/li>\n<li>Le nombre de r\u00e9sultats attendus co\u00efncide \u00e0 99.4% avec les r\u00e9sultats observ\u00e9s et le gain observ\u00e9 est de l\u2019ordre de 3% en moyenne.<\/li>\n<\/ul>\n<h3><strong><em>Conclusion<\/em><\/strong><\/h3>\n<p>Le <em>machine learning <\/em>peut donc permettre de cibler les matchs sur lesquels parier, des ajouts plus pouss\u00e9s pouvant \u00eatre entrepris comme l\u2019obtention de la feuille de match de chaque \u00e9quipe et la connaissance des statistiques de chaque joueur pr\u00e9sent. Bien entendu, cette collecte de donn\u00e9es demande beaucoup d\u2019organisation et de m\u00e9thode.<\/p>\n<p>L\u2019\u00e9tude peut \u00eatre am\u00e9lior\u00e9e si l\u2019on connait l\u2019effectif disponible poste par poste pour chaque \u00e9quipe\u00a0; pour cela, il faudrait une base de donn\u00e9es FIFA\/PES\/FootBall Manager (PES\u00a0pour Pro Evolution Soccer) afin de connaitre la note de chaque joueur, ainsi que sa valeur.<\/p>\n<p>L\u2019\u00e9tude sur les paris sportifs est un premier pas afin de d\u00e9montrer que le <em>machine learning<\/em> peut \u00eatre b\u00e9n\u00e9fique dans le monde du sport. En effet, nous pouvons envisager de l\u2019utiliser dans le but de cibler les joueurs prometteurs de demain ou de cibler les joueurs \u00e0 fort potentiel de revente. Pour ce type d\u2019\u00e9tudes, il faudrait des statistiques pr\u00e9cises sur chaque joueur que peuvent apporter les scouts des clubs qui visualisent beaucoup de matchs et fournissent des rapports d\u00e9taill\u00e9s pour chaque club (pour les non-sp\u00e9cialistes, un scout de club de football est un \u00e9missaire qui suit un certain nombre de clubs formateurs, d\u00e9tecte les espoirs et les talents). De plus, le <em>machine learning <\/em>pourra aussi d\u00e9truire de fausses id\u00e9es re\u00e7ues\u00a0; en effet, combien de fois avons-nous entendu dans les m\u00e9dias que telle ou telle \u00e9quipe a une dynamique positive et donc que cela lui donne plus de chance pour la suite de la comp\u00e9tition. Or l\u2019\u00e9tude qui a \u00e9t\u00e9 men\u00e9e montre que la dynamique est trompeuse.<\/p>\n<p>En outre, le <em>machine learning<\/em> pourra permettre aux entraineurs d\u2019identifier les sp\u00e9cificit\u00e9s n\u00e9cessaires \u00e0 d\u00e9velopper pour chaque poste, de mani\u00e8re \u00e0 am\u00e9liorer le rendement des joueurs.<\/p>\n<p>Il me parait \u00e9vident que l\u2019introduction du <em>machine learning<\/em> dans le monde sportif permettra de faire un r\u00e9el bon en avant dans le recrutement de joueurs ainsi que les m\u00e9thodes d\u2019entra\u00eenement.<\/p>\n<p>Il serait pertinent que les clubs investissent dans des p\u00f4les de data-science ou mettre leurs donn\u00e9es disponibles sur des sites de comp\u00e9titions en ligne.<\/p>\n<p>Ils seront surpris par ce que les <em>data-scientists<\/em> pourront en tirer.<\/p>\n<hr \/>\n<p><em><strong>Sources\u00a0:<\/strong><\/em><\/p>\n<p><em>transfermarkt.fr<\/em><\/p>\n<p><em>football-data.co.uk<\/em><\/p>\n<p><em>Apprentissage et Data Mining, cours ENSAE d\u2019Arnak Dalalyan<\/em><\/p>\n<p><em>Machine Learning in computational biology, cours ENSAE de Jean-Philippe Vert<\/em><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Selon les acteurs du football, le football est un sport ind\u00e9cis o\u00f9, sur une seule occurrence, tout le monde peut vaincre tout le monde\u00a0; l\u2019histoire de la Coupe de France en fournit la preuve. C\u2019est ce qui fait la beaut\u00e9 de ce sport. La question de la pr\u00e9vision d\u2019un r\u00e9sultat m\u00e9rite d\u2019\u00eatre pos\u00e9e\u00a0: peut-on pr\u00e9dire [&hellip;]<\/p>\n","protected":false},"author":73,"featured_media":2254,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_et_pb_use_builder":"","_et_pb_old_content":"","_et_gb_content_width":"","_exactmetrics_skip_tracking":false,"_exactmetrics_sitenote_active":false,"_exactmetrics_sitenote_note":"","_exactmetrics_sitenote_category":0,"footnotes":""},"categories":[137,133],"tags":[],"class_list":["post-2252","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-sport","category-themes","et-has-post-format-content","et_post_format-et-post-format-standard"],"_links":{"self":[{"href":"https:\/\/variances.eu\/index.php?rest_route=\/wp\/v2\/posts\/2252","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/variances.eu\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/variances.eu\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/variances.eu\/index.php?rest_route=\/wp\/v2\/users\/73"}],"replies":[{"embeddable":true,"href":"https:\/\/variances.eu\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=2252"}],"version-history":[{"count":0,"href":"https:\/\/variances.eu\/index.php?rest_route=\/wp\/v2\/posts\/2252\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/variances.eu\/index.php?rest_route=\/wp\/v2\/media\/2254"}],"wp:attachment":[{"href":"https:\/\/variances.eu\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=2252"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/variances.eu\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=2252"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/variances.eu\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=2252"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}