Förväntade mål är ett populärt mätvärde för att tippa framtida resultat. Kan man använda förväntade mål till att förutse framtida utfall? Bettinganalytikern Joseph Buchdahl analyserar siffrorna för att komma fram till om man kan tippa fotbollsresultat utifrån förväntade mål.
Alla som tar sportbetting på allvar har länge känt till idén bakom förväntade utfall och i synnerhet väntevärde.
Mycket av det som avgör om ett spel vinner eller förlorar beror på slumpen.
Men om man känner till sitt väntevärde kan man på längre sikt uppskatta vad man kan förvänta sig att vinna över ett stort antal spel. Väntevärde är bara ett annat ord för aritmetiskt medelvärde eller genomsnitt.
På senare tid har konceptet letat sig in i fotbollens värd via begreppet förväntade mål (xG). Förväntade mål används som ett mått på fotbollslags och -spelares prestationsnivå genom att tilldela varje målchans en sannolikhet som visar hur troligt det är att målchansen resulterar i ett mål.
Det beräknas genom att använda historiska data för motsvarande målchanser och deras sannolikhet att gå i mål. Således ligger xG-värdet för en målchans alltid mellan 1 och 0.
Om man dessutom summerar xG-värdena för alla målchanser i en match får man fram ett xG-värde för själva matchen, vanligen fördelat mellan lagen i fråga.
xG ger en mer rättvisande bild av spelkvaliteten hos lagen i en match.
I teorin ger xG en mer rättvisande bild av lagens spelkvalitet i en match (och ett lags överlägsenhet över ett annat) än vad de faktiska målen gör.
Mål påverkas av en hel del tur (vad statistiker kallar för ”brus”), och att använda faktiska slutresultat för att försöka förutsäga hur ett lag kommer att prestera i sin nästa match kan vara mindre tillförlitligt än att använda deras xG-värde.
På sätt och vis kan mål liknas vid faktiska vinster och förluster inom betting medan förväntade mål kan liknas vid väntevärde. Om så är fallet väcks frågan om man kan använda xG istället för mål för att förutse fotbollsresultat och tjäna pengar.
Mål kontra xG
Matematikern David Sumpter (författare till Soccermatics: Mathematical Adventures in the Beautiful Game) har gett sina tankar kring den relativa användbarheten av mål kontra xG när man försöker förutse framtida matchresultatet. Sumpter illustrerar koncist svårigheten i att förutse framtida resultat utifrån måldata.
”Ur statistisk synvinkel representerar resultatet av en fotbollsmatch nästan lika mycket ”brus” som ”signal”. En matematisk förklaring till detta kan härledas direkt från Poisson-fördelningen. Mål i fotboll är Poisson-fördelade och ett lag gör ca 1,4 mål i snitt per match. Variansen och medelvärdet är lika stora i Poisson-fördelningen. Standardavvikelsen är alltså kvadratroten av 1,4 vilket blir 1,18. Bruset (1,18) är alltså bara något mindre än signalen (1,4).”
xG däremot är ett mått på skapade målchanser och ger därmed en bättre fingervisning om ett lags kvalitet under en enskild match än vad målen gör.
xG innehåller i regel mindre brus och mer signal. För både mål och xG minskar mängden brus i matchresultaten när antalet granskade matcher ökar. Minskningen är dock initialt kraftigare för xG än för faktiska mål.
Sumpter använder denna information för att rekommendera vilken typ av data man bör fokusera på när man försöker tippa framtida matcher. När det gäller bara en eller två matcher är det själva matchrapporten som ger den mest användbara informationen.
Men när det rör sig om över 15 matcher (över hälften av en säsong) är måldata ofta lika tillförlitliga som xG.
Bruset är fortfarande lite högre men skillnaden är liten. Dessutom representerar mål verkligheten (vad som faktiskt hände) medan xG är en sannolikhetsbaserad målchansmodell. Om den är felaktig kan den faktiskt visa sig vara mindre tillförlitlig än måldatan.
Mellan dessa ytterligheter ligger ett spännande område när det gäller att använda xG som ett prognosverktyg. Sumpter hävdar att en xG-rapport är som mest användbar för mellan tre och sex matcher, medan sju till 15 matcher ofta gynnas av en jämförelse mellan mål och xG.
För den här artikeln byggde jag en xG-prognosmodell som jag använde på ett lags sex senaste matcher för att bedöma om den kunde leda till lönsamma spel.
Dixon-Coles modell
Den mest väldokumenterade metoden för att prognostisera fotbollsmatcher publicerades av Mark Dixon och Stuart Coles (Lancaster University) i Journal of Applied Statistics 1997.
Dixon-Coles-modellen utvecklar konceptet med anfalls- och försvarsstyrka genom att jämföra enskilda lags målskytte och insläppta mål med ligagenomsnittet under ett visst antal tidigare matcher.
Detta används sedan för att uppskatta det förväntade antalet mål som varje lag kommer att göra i sin nästa match.
Slutligen används Poisson-fördelningen för att beräkna sannolikheten för individuella mål, där det förväntade antalet mål är fördelningens medelvärde. Pinnacle har en tidigare artikel som beskriver metoden.
Här har jag anpassat modellen till att använda xG istället för mål och beräkna anfalls- och försvarsstyrkorna utifrån de sex senaste hemma- eller bortamatcherna. Mitt dataunderlag omfattade matcher som spelats i den engelska, franska, tyska, italienska och spanska högstaligan från 2015 till 2020.
Prognostiserade sannolikheter för 1X2-resultat omvandlades till implicita rättvisa odds och jämfördes sedan med Pinnacles stängningsodds.
Om de senare var högre motsvarade de den prediktiva modellens teoretiska värde. Värdespel jämfördes sedan med resultaten.
Diagrammet nedan visar vinsttidsserien från de 7 795 möjligheter till värdespel som identifierades av modellen från en möjlig total på 18 006. Vinsten i förhållande till omsättningen vid jämna insatser var -5,0 %. Detta kan jämföras med en förlust på -4,3 % om man hade satsat en enhet i blindo på alla 18 006 resultat. Det kan man knappast vara nöjd med eftersom det genomsnittliga väntevärdet för urvalet var 38,9 %.
Modellens potentiella ogiltighet
Den kanske första ledtråden till att modellen misslyckats ligger i själva siffran för det genomsnittliga väntevärdet.
Med genomsnittliga odds på 4,69 skulle en siffra på nästan 40 % för det genomsnittliga väntevärdet från spel som utgör över en tredjedel av alla möjligheter starkt tyda på en enorm varians i de implicita rättvisa oddsen jämfört med Pinnacles faktiska odds.
Detta bekräftas av ett korrelationsdiagram mellan modellens prognostiserade xG-värden och de faktiska xG-värden som registrerats för den tippade matchen.
Det finns en hel del brus och de modellerade xG-värdena är inte särskilt bra på att exakt förutsäga ett lags faktiska xG i en match.
Källan till modellens misslyckande kan vara svårare att utröna eftersom det potentiellt finns minst fyra problem med den. För det första kan det vara fel i sig att använda en Dixon-Coles-modell för att prognostisera fotbollsresultat. Poisson-fördelningen som ligger till grund för detta förutsätter att mål är oberoende av varandra, det vill säga att ett mål inte leder till ett annat.
Detta bortser dock från spelar- och lagpsykologi. Lag som hamnar i underläge kan bli mer motiverade än tidigare, och lag som just kvitterat kan bli mer motiverade att göra mål för att fullborda vändningen.
Om så är fallet måste föreställningen om att mål uppstår helt slumpmässigt ifrågasättas.
Dixon och Coles rapporterade själva att deras ursprungliga prognosmodell underrapporterade målfattiga resultat (0–0, 1–0, 0–1 och 1–1). För att bekräfta detta har jag sorterat om både mina modellberäknade xG-data och faktiska xG-data separat från lägst till högst och plottat dem som en artificiell korrelation (heldragen linje nedan).
Det är uppenbart att det finns färre faktiska låga xG-värden än vad min modell förutsäger, medan det finns fler höga xG-värden än vad det borde finnas (den streckade linjen).
Det Dixon och Coles observerade när det gäller mål verkar också gälla för xG, och det är inte helt oväntat med tanke på att matchmål och match-xG korrelerar väl över stora datamängder.
En annan möjlig felkälla är själva xG-modellen. För mitt dataurval motsvarade xG 97,8 % av de faktiska målen som gjordes i matcherna. Även om det är nästan lika mycket är det svårt att veta om skillnaden ändå kan påverka giltigheten hos en xG-prognosmodell.
En tredje felkälla kan vara mitt val av antalet nyliga matcher för att beräkna Dixon-Coles anfalls- och försvarsstyrkor.
Av skälen som jag redogjorde för tidigare i artikeln valde jag sex matcher. Kanske skulle en högre eller lägre siffra ha fungerat bättre.
En sådan ändring vore relativt enkel att genomföra, men det skulle kräva en fullständig upprepning av modellen och det är inte något jag kommer att göra här.
Dessutom har alla sex matcher fått samma viktning. Dixon och Coles insåg att nyare matcher kanske borde ges större vikt vid beräkningen av genomsnittlig styrka och införde en sådan viktning i senare versioner av sin modell.
Det är också något jag skulle kunna modellera själv, men med tanke på hur tidskrävande det vore har jag valt att inte göra det.
Det finns ett sista och möjligen mer existentiellt problem med min modell när det gäller att försöka tjäna pengar på att tippa fotbollsmatcher.
Även om man bortser från alla andra möjliga felkällor kan en bra xG-modell (mycket bättre än min) kanske inte ge en icke-slumpmässig vinst eftersom den inte är lika bra som den modell som spelbolaget använder för att sätta sina odds.
Med tanke på att Dixon-Coles är en väldokumenterad modell och xG numera är utbrett är det möjligt att all information från en sådan prognosmetod redan är införlivad i spelbolagens odds.
En skicklighetsbaserad tävling
Att spela på sportodds påminner en del om att faktiskt utöva sporten i fråga. Det är en skicklighetsbaserad kamp mellan två eller flera parter om vem som är bäst på att förutsäga framtiden.
Ju bättre någon är på det, desto mer tillförlitlig och giltig kommer den personens bedömning av faktiska utfallssannolikheter (och därmed odds) att vara. Misstag straffas med ekonomiska påföljder.
Pinnacle (som förmodligen är det spelbolag som är bäst på dataanalys) har exceptionellt tillförlitliga prognosmodeller, mycket bättre än mina. Vi vet redan att Pinnacle har kunder som kan gå med vinst utan tur, men jag har tidigare förklarat hur sällsynta de är.
Om Pinnacle är prognosmodellernas Aston Villa är extremt skickliga kunder mer som Liverpool eller Manchester City.
Visst kan du ha en bra modell (kanske en Reading eller en Derby) som duger till att göra hyfsade förutsägelser, men den är inte tillräckligt bra för att konsekvent slå de bästa modellerna. Min modell i den här artikeln skulle förmodligen inte ens platsa i korpen.xG kan också vara en användbar resurs när man bygger en prediktiv modell.
När det gäller frågan om huruvida xG kan användas till att tjäna pengar på fotbollsodds uppstår ett problem. De odds som en prognosmodell ger är en återspegling av kvaliteten på den information som modellen baseras på.
xG kan mycket väl vara en användbar dataresurs när man bygger en prognosmodell, men om Pinnacle redan har införlivat den informationen i sin egen modell (plus annan användbar information som jag inte har) kommer min prognosmodell inte att överträffa deras.
All eventuell information som mina xG-data tillför är redan införlivad i deras odds. Det blir som BK Blåbär mot Aston Villa.
Om Pinnacle och andra spelbolag redan använder xG i sina prognos- och oddssättningsmodeller (vilket är troligt med tanke på hur länge uppgifterna nu har varit allmänt tillgängliga) är det tveksamt om min användning av sådana uppgifter kan förbättra det de redan gör.
Så kan xG-data hjälpa dig att gå med vinst på fotbollsodds? Som med alla andra former av dataanalys inom betting beror svaret på hur du använder den. Och du måste vara bättre på att använda den än spelbolagen. Du kan hålla dig uppdaterad om Joes utmärkta arbete på hans Twitter (här) eller på vår Oddsresurser-sida (här).