nov 2, 2015
nov 2, 2015

Så klarar du dig med begränsad data

Så klarar du dig med begränsad data
Vad kan du göra om säsongen fortfarande är ung och det inte finns tillräckligt med data för att dra tillförlitliga slutsatser? I denna artikel förklarar Dominic med två exempel hur du kan använda "bootstrap" till att minimera eventuella fel i parametrar som orsakats av för små urval.

En viktig metod för att beräkna sannolikheten för fotbollsmatcher är Poissonfördelning som finns förklarad i en tidigare Pinnacle-artikel. Ta reda på mer om hur du kan förutsäga fotbollsmatcher med hjälp av Poissonfördelning här.

Metoden tilldelar ett förväntat genomsnittligt målvärde till vardera lag genom att jämföra deras anfalls- och försvarsförmågor.  Den kan också användas till att förutsäga förväntat målsnitt för bortalaget.

I början av säsongen kan det emellertid vara svårt att använda den metoden eftersom antalet matcher att hämta information från är för litet. Dessutom kan en enskild extrem match med till exempel ovanligt många mål snedvrida vår uppskattning avsevärt.

Då får vi onekligen ett parameterfel. Du hittar mer information om hur du bygger en egen sportsbettingmodell här.

Ett bra sätt att mäta graden av parameterfel är så kallad bootstrapping. Vid bootstrapping hittar vi på egna urvalsstorlekar.

I skrivande stund har de flesta Premier League-lag inte spelat fler än 5 hemma- och bortamatcher var.

Jag kan till exempel rekommendera två metoder.

Metod 1: Den enkla metoden

Med denna metod använder vi urval med återlägg – vi kan alltså skapa liknande urvalsstorlekar genom att välja samma värde mer än en gång.

I t.ex. Leicester Citys hemmamatcher har de gjort 3, 2, 2 respektive 1 mål mot Aston Villa, West Ham, Arsenal och Crystal Palace. Detta urval ger ett medianvärde på 2 hemmamål per match. 

Med dessa värden kan vi skapa ytterligare ett slumpat urval av fyra mål. Metoden påminner om att skapa slumpade värden med en Monte Carlo-simulering. De extra urvalen kan alltså se ut så här:

  •       Urval 1: 2,2,2,1
  •       Urval 2: 1,1,3,2
  •       Urval 3: 3,3,2,2
  •       Urval 4: 1,2,1,1

Observera att det är mer än dubbelt så sannolikt att två mål inträffar än ett eller tre mål görs och att vi kan få ett annorlunda medianvärde för varje scenario; det är inte alltid två.

I detta exempel är genomsnittet per urval 1,75, 1,75, 2,5 respektive 1,25. Vi tror att genomsnittet är 2 men våra värden visar att det kan skifta mellan 1,25 och 2,5.

Vi kan också utöka detta genom att beräkna ett stort antal olika bootstrap-urval och se resultatens standardavvikelse.

Metod 2: Dags för galenskap!

För Leicesters matcher skulle vi alltså kunna gå fram ett förväntat resultat. Det kan genereras på samma sätt som med Poissonmetoden men med föregående säsongs data.

Vi kan ta matchen mot Aston Villa som exempel. Det genomsnittliga antalet gjorda mål hemma under Premier League-säsongen 2014-2015  var 1,474. Leicester gjorde 28 mål på 19 hemmamatcher. Aston Villa å sin sida släppte bara in 32 mål på 19 bortamatcher.

Det betyder att Leicesters anfallsstyrka blir 1 – de presterade alltså helt enligt genomsnittet på hemmaplan. Aston Villa däremot släppte in i snitt 1,684 mål.

Om vi dividerar det med 1,474 får vi 114,29 % vilket betyder att Aston Villa släppte in 14 % fler mål än genomsnittet på bortaplan. Därför väntas Leicester göra i snitt  1*1,1429*1,474 = 1,684 mål hemma mot Aston Villa. 

Genom att upprepa processen för alla deras matcher får vi fram deras förväntade antal gjorda mål per match enligt tabellen nedan. Här kan vi se att Leicester har presterat bättre än väntat genom att göra fler mål än genomsnittet förutom när de spelade mot Crystal Palace.

De visas i kolumnen Avvikelse (den tekniska termen är residualvärde).

Lag Aston Villa West Ham Arsenal Crystal Palace
Förväntat antal mål 1,684 1,526 1,158 1,263
Faktiskt antal mål 3 2 2 1
Avvikelse 1,316 0,474 0,842 -0,263

Precis som med metod 1 har vi nu fått ett urval med ett antal ersatta residualvärden. Därmed blir några möjliga urvalsresidualer:

  •       Urval 1: 1,316, 1,316, 0,474, 0,474
  •       Urval 2: 0,474, -0,263, -0,263, 0,474

Om vi nu lägger till dessa urvalsresidualer till det förväntade målvärdet får du andra urval av gjorda hemmamål:

  •       Urval 1: 3,000, 2,842, 1,632, 1,737
  •       Urval 2: 2,158, 1,263, 0,895, 1,737

Varje urval har sitt eget snittvärde som vi kan använda till att beräkna hemmalagets gjorda mål i snitt vid olika parametrar.

Slutsats

Trots att detta knappast är lågstadiematematik krävs inga utförliga programmeringskunskaper. Öppna bara ett kalkylark och börja testa de möjliga parametrarna. Tänk emellertid på att du även måste analysera differenserna för bortalagets förväntade antal gjorda mål om du använder den andra metoden som finns beskriven ovan. 

strategy-openaccount.jpg

Oddsresurser: Bli en bättre spelare

Pinnacles avdelning Oddsresurser är en av nätets mest omfattande artikelsamlingar med spelråd från experter. Vi tillgodoser behoven hos både nybörjare och proffs – vårt mål är helt enkelt att öka våra spelares kunskaper.