Lorsqu'il est question de protéger les gains à long terme obtenus grâce à des paris, un système de paris doit impérativement être utilisé. Cependant, les parieurs ont souvent tendance à confondre la gestion de l'argent et les systèmes de paris, ainsi que les principes de corrélation et de causation lorsqu'il est question des résultats. Qu'est-ce qu'un système de paris et comment distinguer la corrélation et la causation ? Lisez cet article pour en savoir plus.
Qu'est-ce qu'un système de paris ?
Contrairement à la méthode de mise ou à la stratégie de gestion de l'argent, qui consiste à attribuer des volumes de mises à vos paris, le système de paris sportifs s'appuie sur une méthodologie de pronostics structurée, basée sur une analyse quantitative des données historiques conçue pour dépasser la marge bénéficiaire du bookmaker et obtenir une valeur attendue positive.
- Découvrez comment calculer les marges des paris
Les parieurs ont souvent tendance à confondre la gestion de l'argent et les systèmes de paris (si vous cherchez « système de paris » dans Google, les résultats décrivent des stratégies comme celles de Martingale, Labouchère ou Fibonacci), mais en réalité, ce sont deux choses bien distinctes.
La gestion de l'argent modifie la nature des risques associés aux paris. Cependant, cela ne peut pas transformer une méthode de pronostic perdante en méthode gagnante sur le long terme. Par comparaison, un système de paris cherche à identifier les probabilités « réelles » des événements qui se produisent au cours d'une compétition sportive.
Systèmes de paris sportifs : analyse de régression
La méthode la plus utilisée pour créer un système de paris sportifs est l'analyse de régression statistique. Pour ceux qui ne maîtrisent pas le jargon statistique, cela peut sembler intimidant, mais il s'agit simplement d'une méthode qui permet d'estimer la relation entre les variables.
Bien que l'analyse de régression soit utile pour créer un système de paris, elle possède un défaut sous-jacent : elle ne fait pas de distinction entre la corrélation et la causation.
La relation la plus simple est la régression linéaire simple, où seulement deux variables sont traitées. Par exemple : le nombre de buts marqués par une équipe (le prédicteur ou la variable indépendante) et la fréquence des victoires (la réponse ou variable dépendante).
Mon premier livre, Fixed Odds Sports Betting: Statistical Forecasting & Risk Management, s'intéresse au modèle de régression simple en fonction de la suprématie relative aux buts de deux équipes, sur leurs 6 précédents matchs.
Grâce à un large échantillon de matchs (dans le cas présent, 8 saisons, de 1993 à 2001), il est possible de créer un schéma qui met en corrélation les classements calculés des matchs (la différence de buts sur les 6 matchs à domicile moins la différence de buts sur les 6 matchs en déplacement) et la fréquence de chaque résultat de match. La distribution du classement des matchs (la variable indépendante) par rapport à la fréquence des victoires à domicile (la variable dépendante) est illustrée ci-dessous.
Les points de données individuelles semblent épars sur le schéma. Toutefois, on note une tendance linéaire évidente qui relie les deux variables : plus l'équipe à domicile est bonne par rapport à l'équipe en déplacement (sur la base de la différence de buts au cours des 6 derniers matchs), plus l'équipe à domicile a de chances de remporter le match.
La ligne de régression tracée sur le schéma décrit essentiellement une relation idéalisée entre la suprématie relative aux buts et la fréquence des victoires à domicile, sans compter le bruit, la chance ou la malchance aléatoires.
Nous pouvons décrire la ligne susmentionnée à l'aide d'une équation. Sachant qu'il s'agit d'un modèle de régression linéaire, elle se définit comme suit : y = mx + c, où y est la variable dépendante (probabilité de victoire), x est la variable indépendante (classement du match), m est l'inclinaison ou le gradient de la ligne de tendance (et une mesure de la force de la relation) et c est la constante ou le point où la ligne croise l'axe y (c.-à-d. x = 0). Dans cet exemple, l'équation est la suivante :
% de victoires à domicile = (1,56 x classement du match) + 46,5
Lorsque le classement du match est égal à zéro (c'est-à-dire lorsque les équipes à domicile et en déplacement affichent un niveau plus ou moins égal en termes de différence de buts), la probabilité de victoire est de 46,5 %. Intuitivement, cela semble logique, puisqu'environ 46 % des matchs de football se terminent par une victoire de l'équipe à domicile. Lorsque la différence de buts nette de l'équipe à domicile est supérieure de 10 points à l'équipe en déplacement, sur les six derniers matchs, le modèle de régression montre que cette équipe remporte le match 62 % du temps. Avec une supériorité de 20 points, ce chiffre s'élève à 78 %.
Notre analyse de régression indique également dans quelle mesure ce modèle de système de paris explique la variabilité des fréquences de victoires. Dans le cas présent : 86 %. Cela est visible dans l'adéquation entre la ligne de tendance et les données. On constate alors qu'il existe une forte corrélation entre les deux variables.
Utiliser un système pour réaliser des pronostics pour les paris
Pour transformer notre modèle de régression en système de paris entièrement fonctionnel, nous devons maintenant prédire les matchs à venir et utiliser ces prévisions pour identifier les paris qui génèrent une valeur attendue positive.
La gestion de l'argent modifie la nature des risques associés aux paris. Cependant, cela ne peut pas transformer une méthode de pronostic perdante en méthode gagnante sur le long terme.
Comme pour la plupart des méthodologies de modèles, l'on part du principe que le passé détient la clé du futur. Si les matchs précédents avec des classements de +10 se sont terminés par une victoire à domicile 62 % du temps, l'on suppose alors qu'une équipe à domicile affichant une suprématie aux buts de 10 points supérieure à celle de l'adversaire aura 62 % de chances de gagner le match.
On peut alors traduire ces probabilités en « cotes » réelles et identifier la valeur attendue pour un bookmaker qui propose des cotes plus longues. En appliquant ce modèle à la saison 2001 / 2002 de l'English Football League, j'ai réussi à atteindre un gain de +2,1 % sur les pertes de balle sur 526 paris avec les meilleures cotes en termes de victoire à domicile, par rapport à une perte de -3,7 % si j'avais simplement parié sur toutes les victoires à domicile pour cette saison, sans réfléchir.
Corrélation et causation
Des activités de paris sur une saison, comptant 500 paris, ne permettent pas de garantir que la rentabilité sera reproduite saison après saison. Ce chiffre peut sembler adapté pour garantir un système de paris fiable, mais un lecteur régulier de Betting Resources sait que ce n'est pas le cas.
L'article de Pinnacle consacré à la loi des petits nombres sert de rappel. En effet, même les échantillons de 1 000 paris peuvent générer des tendances de rentabilité illusoires, qui ne se basent en fait pas sur la causalité, mais sur la chance. Malheureusement, les cinq saisons suivantes ont toutes généré des pertes avec ce système de paris.
Bien que ce modèle de régression simple de suprématie aux buts ait permis d'identifier les équipes à domicile qui avaient le plus de chances de gagner, il ne garantit pas l'identification des équipes davantage susceptibles de gagner que les probabilités tacites des cotes des bookmakers.
Malheureusement, de nombreux parieurs sportifs interprètent souvent mal la précision, l'exactitude et la validité lorsqu'ils étudient leur historique de paris et confondent la corrélation et la causation.
Mon modèle s'est donc avéré performant en matière de prévisions, mais pas meilleur que les modèles utilisés par les bookmakers pour définir leurs cotes, ni que les modèles utilisés par d'autres parieurs qui ont aidé à créer et à modifier ces cotes.
Si mon modèle ne faisait que reproduire celui des modèles des bookmakers, la rentabilité n'afficherait aucune persistance et reflèterait simplement les caprices du hasard. Il ne semble pas s'appuyer sur une corrélation valide. Les prévisions de mon modèle n'ont pas « généré » ces profits, car il n'était pas plus exact que les autres modèles qui fonctionnent de la même manière.
Précision et exactitude
Bien entendu, un modèle de régression linéaire à deux variables est loin d'être le système de paris le plus sophistiqué pour tenter d'identifier la valeur attendue. Le modèle de régression multiple, qui utilise plus de variables de prédicteur ou indépendantes, permet d'augmenter la précision des prévisions. Toutefois, les analystes doivent veiller à ce que cela ne se fasse pas aux dépens de l'exactitude.
Un modèle précis est un modèle dans lequel les mesures sont proches les unes des autres. Par exemple, comme le montre la ligne de tendance de mon modèle de régression linéaire simple, ci-dessus. En revanche, la précision ne garantit pas l'exactitude. L'exactitude mesure à quel point vous êtes proche de la valeur « réelle ». La précision est associée aux erreurs aléatoires et l'exactitude aux erreurs systématiques (également appelées « biais »).
Pour qu'un système de paris soit valide, c'est-à-dire pour qu'il fasse réellement ce qu'il est censé faire (identifier la valeur attendue rentable, de manière constante), il doit être à la fois précis et exact. La validité implique à la fois la prédictibilité et la persistance, c'est-à-dire : est-ce que ce que l'on pense être la cause est vraiment la cause réelle et est-ce que nos mesures génèrent systématiquement cette conclusion ?
Malheureusement, de nombreux parieurs sportifs interprètent souvent mal la précision, l'exactitude et la validité lorsqu'ils étudient leur historique de paris et confondent la corrélation et la causation. Ils pensent que les gains obtenus sont « causés » par leur système de paris et c'est là qu'ils font erreur, car souvent, cela est simplement dû à la chance.
Les dangers de l'analyse de régression
Bien que l'analyse de régression soit utile pour créer un système de paris, elle possède un défaut sous-jacent : elle ne fait pas de distinction entre la corrélation et la causation. L'analyse de régression identifie efficacement l'association entre les variables (par exemple, les buts marqués et encaissés par rapport à la probabilité de gagner des matchs), mais elle ne permet pas d'identifier si une variable est la cause de l'autre.
L'analyse de régression peut nous montrer que lorsque Barcelone perd, Lionel Messi ne marque pas de but. Cependant, nous ne pouvons pas en conclure que Barcelone perd le match parce que Lionel Messi n'a pas marqué.
Sans établir de causation et de validité dans notre système de paris, celui-ci n'est pas nécessairement meilleur qu'un autre modèle de prévisions. Dans un contexte de compétences relatives comme celui des paris sportifs, nous ne sommes pas payés simplement pour prédire le futur. Nous devons être meilleurs que les autres.