janv. 5, 2018
janv. 5, 2018

Le problème de l'exploration de données dans les paris sportifs

En quoi consistent l'exploration et le triturage de données ?

Analyse d'une stratégie simple : « backer » (parier pour) le match nul

Pourquoi les parieurs doivent « compter les singes »

Le problème de l'exploration de données dans les paris sportifs

Il est courant d'utiliser les données dans une stratégie de paris. Cependant, aussi impressionnants que semblent certains résultats, l'important est le processus permettant d'y parvenir. Quels sont les problèmes posés par l'exploration de données dans les paris sportifs ? Lisez cet article pour le découvrir.

Ces derniers mois, je suis tombé sur bon nombre de sites, de blogs et d'articles de forum qui prétendaient avoir découvert des systèmes de paris lucratifs rien qu'en appliquant rétrospectivement quelques critères de sélection en apparence arbitraires à un grand jeu de données historiques de résultats et de cotes.

Dans cet article, j'étudie les pièges que pose l'utilisation de l'exploration de données pour prendre l'avantage : la corrélation sans causalité est source de problèmes pour le parieur sportif.

Exploration et triturage de données

L'exploration de données (« data mining ») est le processus qui consiste à analyser de grands jeux de données afin d'en dégager des motifs et des informations. Plus spécifiquement, la tâche du triturage de données (« data dredging ») suppose d'utiliser l'exploration de données pour identifier des schémas dans les données qui peuvent être présentés comme significatifs d'un point de vue statistique.

On ne peut adapter a posteriori une explication pour justifier un résultat, car ce serait prendre le contre-pied de la relation de causalité.

Les paris sportifs se prêtent bien à l'exploration et au triturage de données. Divers sites mettent à disposition de gros volumes de résultats historiques et de cotes sur le football afin de permettre de chercher et de tester rétrospectivement des systèmes de paris lucratifs.

La grande limite de cet outil d'analyse de données, cependant, est que les hypothèses a priori permettant de rendre compte de la présence de ces motifs ne sont généralement pas émises.

La corrélation sans causalité

J'ai déjà abordé les pièges posés par la confusion entre corrélation et causalité et entre précision et exactitude ou validité. Pour qu'un système de paris soit valide et remplisse vraiment sa fonction, il faut avoir au préalable une idée de ce qui est à l'origine de sa réussite.

Si l'on n'a pas établi la relation de cause à effet qui se trouve derrière la corrélation, on ne sait absolument pas ce qui peut causer l'effondrement de cette dernière ; la corrélation sans causalité n'a aucun sens.

De la valeur cachée dans la quatrième division du championnat d'Angleterre de football ?

Sur mon fil Twitter, il y a une semaine, mon attention a été attirée par les profits exceptionnels qui auraient pu être dégagés en pariant à l'aveuglette sur toutes les victoires à l'extérieur en quatrième division du championnat d'Angleterre de football (EFL League Two) entre les saisons 2012-2013 et 2016-2017 incluses (presque 3 000 paris) : 4,3 % sur les cotes de clôture de Pinnacle et près de 10 % sur les meilleures cotes du marché.

Seule une saison sur les cinq a enregistré une perte par rapport aux cotes de clôture de Pinnacle, et elle était faible. Voici le graphique des gains :

article-data-mining-3-in-article.jpg

Il était suggéré que le marché sous-estimait les équipes visiteuses de cette division, c'est-à-dire qu'elles étaient surcotées. Ce n'est pas une aberration à court terme, cependant ; il s'agirait plutôt d'une erreur constante et systématique dans l'estimation faite par les parieurs de la probabilité de victoires à l'extérieur en EFL League Two, bien au-delà des limites de la marge bénéficiaire du bookmaker. Mais peut-on vraiment penser qu'il y ait ici une quelconque relation de causalité ?

Backer le match nul : si simple en apparence

Parmi les stratégies que j'ai régulièrement vues publiées figure également celle qui se nomme « backer le match nul » (soit « parier pour » le match nul). Elle revendique un bénéfice de près de 16 % sur le chiffre d'affaires après plus de 2 500 paris, selon des tests effectués rétrospectivement à partir des résultats de football et des cotes de Pinnacle sur les matchs depuis 2012.

Les critères de sélection sont simples : aucune équipe ne doit avoir fait match nul au cours des trois derniers matchs ; les cotes doivent être comprises entre 3,20 et 3,56. En testant si ce résultat est statistiquement significatif, on découvre que de tels gains sont en effet exceptionnels. Ces cotes pourraient produire une rentabilité de cet acabit à une fréquence de l'ordre de seulement une fois sur un million, voire moins, à supposer que la tendance soit exclusivement aléatoire.

On pourrait tout à fait se demander pourquoi ce sont précisément ces critères qui ont été choisis. Pourquoi pas les quatre, les cinq ou les six derniers matchs ? Et des cotes comprises entre 3,07 et 3,41, ou entre 3,13 et 3,72 ? Bien sûr, ces critères n'ont très certainement pas été sélectionnés avant l'exploration des données ; il a simplement été découvert qu'ils assuraient les profits que l'on a vus. Et on ne peut adapter a posteriori une explication pour justifier un résultat, car ce serait prendre le contre-pied de la relation de causalité.

Si l'on n'a pas établi la relation de cause à effet qui se trouve derrière la corrélation, on ne sait absolument pas ce qui peut causer l'effondrement de cette dernière.

Pour défendre cette stratégie, on pourrait à présent ajouter : « une fois sur un million : c'est sûrement le signe que ce n'est pas un hasard, n'est-ce pas ? ». Certes. Cependant, si l'on a un million de stratégies à tester, et que l'on en trouve une qui soit aussi statistiquement significative que celle-ci, que peut-on en déduire ? Dans son livre Le hasard sauvage, Nassim Taleb imagine des singes tentant de reproduire la poésie d'Homère sur une machine à écrire :

« S'il y avait cinq singes dans la partie, je serais assez impressionné par celui qui aurait écrit l'Iliade, au point de le suspecter d'être la réincarnation du poète de l'Antiquité. S'ils étaient au nombre d'un milliard puissance un milliard, je le serais moins... »

Comme le souligne Taleb, rares sont les gens qui prennent la peine de compter tous les singes, et, même alors, presque aucun d'entre eux ne dégagerait des motifs intéressants qui mériteraient d'être relevés. Le biais du survivant fait que l'on ne voit que les vainqueurs.

Pourquoi les parieurs doivent « compter les singes »

Si l'on ne propose pas d'hypothèse a priori avant de triturer les données à la recherche de tendances lucratives, il faut au moins tester un grand nombre de systèmes de paris pour déterminer la fréquence à laquelle on en trouve qui soient statistiquement significatifs. Comme je l'ai énoncé en réponse à cette discussion sur mon fil Twitter, « trouvons la distribution des rendements sur 10 000 échantillons de paris en aveugle sélectionnés selon 10 000 critères différents, et voyons à quoi elle ressemble. »

Je n'ai pas réussi à trouver 10 000 échantillons de paris à l'aveugle d'une taille convenable (cela demanderait de gros volumes de données) ; j'en ai malgré tout déniché 1 686, de 100 paris ou plus. Chaque échantillon représentait une série de paris engagés à l'aveuglette sur un résultat précis (victoire de l'équipe locale, match nul ou victoire de l'équipe visiteuse), pour une ligue de football donnée au cours d'une seule saison.

Après avoir retiré la marge de Pinnacle pour trouver les cotes « réelles » de chaque issue, j'ai calculé le rendement théorique de tous les échantillons ainsi que leur statistique t, ma mesure préférée pour savoir s'il est probable ou non que de tels résultats soient le fruit du hasard. Le graphique ci-dessous montre leur distribution. Les scores t positifs représentent des échantillons bénéficiaires, les négatifs des pertes ; plus le chiffre est grand, moins il est probable.

article-data-mining-2-in-article.jpg

Ceux d'entre vous qui connaissent la distribution normale (courbe en cloche) l'identifieront comme un signe de hasard. En d'autres termes, le résultat de ces échantillons de paris à l'aveugle se rapproche étroitement de ce à quoi l'on pourrait s'attendre si tout était purement aléatoire.

Lorsque l'on regarde les choses dans leur ensemble, il n'y a manifestement rien ou presque rien de systématique qui se produise. Ces saisons lucratives en quatrième division du championnat d'Angleterre de football n'étaient très probablement rien d'autre qu'un coup de chance, qui a été mis au jour en triturant les données et en tombant sur quelque chose qui ressemblait à un schéma avantageux, causé par un comportement systématiquement irrationnel chez les parieurs ou chez le bookmaker.

Le rendement des cotes « réelles » des cinq saisons prises dans leur ensemble aurait un score t de +2,4, ce qui implique une probabilité (valeur p) de l'ordre de 1 pour 100 qu'il soit le fruit du hasard. D'un point de vue statistique, c'est significatif ; si nous souhaitions publier un article de recherche à ce sujet précis, nous serions enclins à le considérer comme une réalité. Mais, en étudiant le tableau dans son ensemble, nous savons que ce n'est très certainement pas le cas, et qu'il s'agit d'un pur hasard.

Si l'on s'efforce de concevoir un système de paris en triturant les données jusqu'à trouver des critères lucratifs, on risque d'omettre d'établir des explications causales qui rendront compte des relations trouvées.

De fait, l'un des échantillons de la saison 2007-2008 de l'EFL League Two était encore plus rémunérateur. Les 242 matchs pour lesquels j'ai des données entre décembre et mai ont montré un profit théorique de plus de 29 % (ou 35 % sur la base des cotes « réelles » une fois la marge retirée). De telles performances pourraient se produire de façon aléatoire environ une fois sur 1 000. Il s'agit des meilleures qui ont été obtenues parmi les 1 686 échantillons. 

Au total, 837 d'entre eux, soit environ la moitié, étaient rentables par rapport aux cotes « réelles », comme on pourrait s'y attendre. Dans un ensemble d'échantillons de ce type, on tablerait tout naturellement sur une valeur p d'environ 1 sur 1 686 pour le meilleur d'entre eux. À peu près 16 échantillons (ou 1 %) afficheraient une valeur p de moins de 1 pour 100. De même, la valeur p serait inférieure à 1 sur 10 pour approximativement 168 d'entre eux (ou 10 %). Tout autre cas de figure nous conduirait à juste titre à nous demander si certains de ces résultats étaient influencés par autre chose que le hasard.

On a en fait obtenu respectivement 15 (0,9 %) et 158 (9,4 %) échantillons, ce qui est plutôt proche des prévisions. Le graphique ci-dessous compare le pourcentage théorique attendu d'échantillons lucratifs dont la valeur p se situe au-dessous d'un certain seuil (1 pour 10 : 10 %, 1 pour 5 : 20 %, etc.) avec la proportion réellement trouvée. L'équivalence presque parfaite saute aux yeux.

En somme, le graphique est un autre moyen de dire que presque tout ce que l'on observe est le fruit du hasard, et rien d'autre. Une rentabilité de 1 sur 1 000 est certes impressionnante, mais, si l'on dispose de plus de 1 000 échantillons, ce n'est pas anormal : il ne s'agit donc pas d'une preuve solide d'une quelconque relation de causalité. 

article-data-mining-1-in-article.jpg

Que nous apprennent l'exploration et le triturage de données en matière de paris ?

Il n'est peut-être pas étonnant que la distribution de la rentabilité par division de football saisonnière soit aléatoire. Ce n'est pas vraiment le moyen le plus subtil d'élaborer un modèle de paris. Mais voici l'essentiel : si l'on s'efforce de concevoir un système de paris en triturant les données jusqu'à trouver des critères lucratifs, on risque d'omettre d'établir des explications causales qui rendront compte des relations trouvées. 

Sauf à avoir une raison qui justifie ce profit, une telle démarche peut se révéler complètement absurde. La corrélation sans causalité converge simplement vers la moyenne. Pour un parieur sportif, cela signifie perdre de l'argent sur le long terme.

On pourrait soutenir qu'il n'y a pas de mal à tirer parti de la chance pour gagner de l'argent ; c'est après tout l'essence des paris. Dans ce cas, il ne faut néanmoins pas se leurrer en supposant que la réussite obtenue serait le fruit d'autre chose.

Ressources sur les paris - Vous aider à mieux parier

Les Ressources sur les paris de Pinnacle constituent la bibliothèque en ligne la plus complète de conseils d'experts sur les paris. Notre objectif est tout simplement de permettre aux parieurs d'acquérir davantage de connaissances, quel que soit leur niveau d'expérience.