Nombre de buts attendus : vue d'ensemble
Le modèle de football qui a suscité le plus d'attention ces dernières années est sans doute celui du nombre de buts attendus. L'idée derrière le nombre de buts attendus est simple : il mesure la qualité des chances.
Si un joueur tire depuis la surface de but (à 5 m de la cage), nous savons alors intuitivement qu'il possède une plus grande chance de marquer que s'il tire à 30 m. Le nombre de buts attendus convertit notre intuition en probabilités. Chaque chance se voit affecter une probabilité d'être un but.
Il existe de nombreuses ressources expliquant le nombre de buts attendus dans le détail, mais il y a un point important à mettre en avant : indiscutablement, l'aspect le plus important du modèle est l'emplacement à partir duquel le tir est effectué.
Observez les bulles sortant du but dans l'image ci-dessous. Elles indiquent la probabilité de marquer en fonction de la chance indiquée dans la bulle. En dehors de l'illustration, la chance est d'environ 3 %.

Ces données vous permettent d'établir votre propre modèle de buts attendus pour votre équipe pendant que vous regardez le match. Il vous suffit de compter les chances qu'ils ont dans chaque bulle.
S'ils avaient deux chances dans la bulle de 30 %, une chance dans celle de 15 %, cinq chances dans celle de 7 % et dix chances en dehors des bulles, alors leur nombre de buts attendus est de :
2×0,30 + 1×0,15 + 5×0,07 + 10×0,03 = 0,855 xG
Le modèle de buts attendus que j'ai développé est un peu plus compliqué. J'y ai ajouté si une chance est une contre-attaque, une tête, une « grande opportunité » et quelques autres facteurs. Ces facteurs améliorent le modèle, car il ne dépend plus uniquement de l'emplacement des tirs, mais l'emplacement des tirs est le bon point de départ pour créer un modèle de buts attendus.
Buts attendus : peuvent-ils battre les cotes en football ?
Pour chaque modèle de pari, la question est de savoir s'il peut battre les cotes. Comme je l'ai indiqué dans la première partie, je ne crois pas en l'existence d'une formule magique dans les paris. Alors les buts attendus peuvent-ils fournir la solution ? Peuvent-ils battre les cotes en football ?
Pour répondre à cette question, il nous faut tout d'abord observer les cotes dans le football. Lorsque je recherche des biais dans les cotes de football, je commence généralement par un modèle statistique appelé régression logistique.
L'idée derrière la régression est de déterminer si les cotes de football prédisent correctement le résultat d'un match. Imaginez que nous nous intéressons à la probabilité d'une victoire à l'extérieur.
Pour ce faire, nous adaptons le modèle à la probabilité de remporter un match à l'extérieur, où a est la cote du bookmaker pour la victoire à l'extérieur (au format de cote décimal et corrigée pour supprimer la marge du bookmaker) et une constante. Si vous n'êtes pas familier de la régression logistique, de nombreux guides sont disponibles en ligne.
Expression de régression logistique
Vous trouverez ci-dessous un exemple de régression logistique pour les deux dernières saisons de Premier League (2015/16 et 2016/17).

La taille des points est ici proportionnelle au nombre de fois où ces cotes ont été proposées. Plus les points sont épais, plus ces cotes particulières sont fréquentes.
Le principal message n'est pas les suggestions fournies par le modèle, mais la méthode. Si vous souhaitez établir un modèle et gagner de l'argent en pariant sur le football, commencez toujours par les cotes.
Si ces cercles se trouvent en dessous de la ligne en pointillés, cela signifie que la probabilité d'une victoire à l'extérieur était plus faible que les cotes l'avaient prévu. Si les cercles se trouvent au dessus de la ligne en pointillés, cela signifie que la probabilité d'une victoire à l'extérieur était plus importante que les cotes l'avaient prévu.
La ligne continue représente pour les données. Cette ligne nous indique la tendance globale. Si vous observez attentivement la courbe des probabilités prévues autour de 0,1, qui correspond à des cotes autour de 10,0, vous verrez que la courbe se situe légèrement au-dessus de la ligne, tandis que pour les probabilités prévues au-dessus de 0,25, la tendance est inversée.
Cela nous indique que lors des deux dernières saisons, les outsiders ont gagné à l'extérieur et que les favoris ont perdu à l'extérieur plus souvent que les cotes du bookmaker l'avaient prévu.
Outsiders sous-évalués et favoris surévalués
S'il y a une valeur à trouver au cours des deux dernières saisons, ce serait de prédire quels outsiders vont gagner et quels favoris n'y parviendront pas. C'est là que nous pouvons utiliser les buts attendus. J'ai réalisé une nouvelle régression logistique de la forme suivante :

J'ai maintenant ajouté la variable xGDiff. Cette variable représente la différence de buts attendus entre les deux équipes, calculée à partir de la moyenne des nombres attendus des équipes sur leurs 5 derniers matchs :

Cette régression logistique m'a permis de conclure que les équipes jouant à l'extérieur, mais avec une différence xGDiff plus favorable, avaient plus de chance de gagner que ce que suggéraient les cotes.
Ainsi, si nous pouvons trouver un outsider jouant à l'extérieur avec un xG élevé, il est intéressant de parier sur lui. Les favoris jouant à l'extérieur avec un faible xG devraient être évités.
Régression logistique : inclusion du nombre de buts attendus
Voici le tableau des buts attendus pour la saison actuelle (2017/18) à la 11e semaine.
Tableau des buts attendus pour la Premier League 2017/18 (à la 11e semaine)
Équipe
|
xVictoires
|
xMatchs nuls
|
xDéfaites
|
xButs en faveur
|
xButs contre
|
xPoints
|
Manchester City
|
8
|
2
|
1
|
25,9
|
6
|
26
|
Liverpool
|
6,2
|
2
|
2,8
|
20,3
|
11,6
|
20,6
|
Tottenham Hotspur
|
5,7
|
3
|
2,2
|
15,2
|
7,6
|
20,1
|
Manchester United
|
5,8
|
2,3
|
2,9
|
19,4
|
10,7
|
19,7
|
Arsenal
|
5,8
|
2,1
|
3,2
|
18,9
|
12,5
|
19,5
|
Leicester City
|
5,5
|
2,5
|
3
|
17,3
|
12,3
|
19
|
Chelsea
|
4,2
|
3,2
|
3,6
|
11,9
|
10,9
|
15,8
|
Southampton
|
4,2
|
2,9
|
3,9
|
13,1
|
12,4
|
15,5
|
Watford
|
3,9
|
2,9
|
4,3
|
14,8
|
16,3
|
14,6
|
Crystal Palace
|
4
|
2,5
|
4,4
|
12,3
|
15,1
|
14,5
|
Everton
|
3,5
|
3,1
|
4,4
|
11,9
|
14,5
|
13,6
|
Newcastle
|
3,5
|
2,7
|
3,8
|
11
|
11,4
|
13,2
|
Brighton and Hove Albion
|
3,2
|
3
|
4,9
|
9,1
|
13
|
12,6
|
West Bromwich Albion
|
2,8
|
3,6
|
4,6
|
8,3
|
12,7
|
12
|
Swansea City
|
2,7
|
3
|
5,2
|
8,6
|
14,8
|
11,1
|
Stoke City
|
2,7
|
2,9
|
5,4
|
11
|
17,6
|
11
|
West Ham United
|
2,5
|
3,1
|
5,3
|
8,6
|
14,9
|
10,6
|
Huddersfield Town
|
2,3
|
3,6
|
5,1
|
6,5
|
13
|
10,5
|
Bournemouth
|
2,3
|
2,8
|
5,9
|
7,6
|
15,5
|
9,7
|
Burnley
|
1,9
|
2,9
|
5,2
|
5,5
|
14,3
|
8,6
|
Nous pouvons utiliser le match WBA contre Chelsea afin de tester le modèle. Le xGDiff de ces équipes est de :
(8,3+11,9 - 12,7-11,9)/2 = -2,7
Par match, sa valeur est de -0,25. Chelsea était l'équipe favorite, avec une cote de a=1,62* au moment de la rédaction de cet article. Si l'on substitue cette cote et ce xGDiff dans l'équation (2), on obtient P(victoire à l'extérieur)=42 % (avec les paramètres b0=-0,49 b=0,75 et b2=0,73 ajustés à l'aide des données des saisons précédentes).
Alors que les cotes suggèrent une chance de victoire de Chelsea de 62 %, le modèle suggère que la probabilité est bien plus faible. Il est préférable de parier sur la défaite de Chelsea.
Le nombre de buts attendus convertit notre intuition en probabilités. Chaque chance se voit affecter une probabilité d'être un but.
Un autre match qui ressort du tableau ci-dessus est celui de Southampton à l'extérieur contre Liverpool. Le xGDiff de ces équipes est de 0,36 en faveur de Liverpool, ce qu'il signifie qu'ils sont favoris. Toutefois, la cote pour une victoire de Southampton est de 8,3, impliquant une probabilité de victoire de 12 %.
Mon modèle leur donne une chance de victoire de 15 %. Cela laisse à penser qu'il pourrait être rentable de parier sur la victoire de Southampton, mais n'oubliez pas que, même si le modèle a raison, vous ne gagnerez que 15 % du temps.
Leçons tirées de ce modèle
Le principal message n'est pas les suggestions fournies par le modèle (WBA et Southampton ont tous les deux perdu), mais la méthode. Si vous souhaitez établir un modèle et gagner de l'argent en pariant sur le football, commencez toujours par les cotes.
Utilisez tout d'abord une régression logistique pour trouver les incohérences dans les cotes, puis ajoutez les variables (telles que les buts attendus) pour voir si vous obtenez un avantage. Cet avantage sera faible, mais il pourrait être rentable à long terme.
Si vous souhaitez en savoir davantage sur le travail de David Sumpter, vous pouvez suivre @Soccermatics sur Twitter.