aug 13, 2015
aug 13, 2015

Att mäta datas relevans

Att mäta datas relevans
För att kunna maximera dina oddsvinster är det viktigt att samla in så mycket data som möjligt. Men hur väl passar olika data in i olika scenarion? Dominic Cortis förklarar hur viktigt "datarelevansen" är när man analyserar data.

För att kunna testa och modellera resultat måste man jämföra förväntade värden i ett idealscenario med faktiska, observerade värden. Tidskriften Pinnacle Pulse har publicerat ett antal artiklar om olika typer av distributioner och utfall. I en tidigare artikel gick jag igenom det vanliga felet att använda rätt modell men fel parametrar, till exempel på grund av för litet urval med ett stort värde.

I fackspråk kallas det att mäta "datarelevansen", alltså hur väl den observerade datan passar in i det förväntade scenariot.

Det avviker från att hitta rätt storleksform (inte formtyp) som finns förklarat i artikeln Fel i modeller. Ett av det enklare sätten att mäta det på är testet χ2 som ska utläsas som "Chi-Square".

Slumpen

Om en tärning rullas 60 gånger väntar vi oss 10 observationer för varje siffra (1, 2, , 6). Vi får inte falla för misstagetatt tro atten siffra inte kan dyka upp igen om den dykt upp 40 gånger i rad.

Om en tärning till exempel gett 9, 11, 10, 9, 12 och 9 observationer av 1, 2, 3, 4, 5 respektive 6, kan vi då dra slutsatsen att tärningssidornas odds inte är lika? Resultatet avviker förvisso från de förväntade 10 observationerna för varje siffra, men frågan är om det är statistiskt relevant.

Avvikelsen, alltså skillnaden mellan de förväntade och observerade värdena, varierar mellan -2 och 1 enligt tabellen nedan.

Värde

1

2

3

4

5

6

Förväntat = E

10

10

10

10

10

10

Observerat = O

9

11

10

9

12

9

Avvikelse = E - O

1

-1

0

1

-2

1

[E – O]² ÷ E

0,1

0,1

0

0,1

0,4

0,1

Det vi vill mäta är den genomsnittliga avvikelsen för att ta reda på hur mycket tärningen avviker från det förväntade scenariot. Avvikelseadderingen är 0 eftersom både de observerade och förväntade värdena blir 60 tillsammans.

Det finns flera sätt att mäta detta på som till exempel absoluta värden (genom att göra alla värden positiva) eller procentskillnader.

Men för vårt matematiska syfte mäter vi den relativa förändringen i kvadratavvikelsen. Det görs genom att ta roten ur varje avvikelse och dividera den med väntevärdet.

För de 12 observationerna av siffran 5 får vi till exempel 2^2 ÷ 10 = 0,4. Om vi adderar alla dessa värden blir resultatet av χ2: 0,8.

Chi-Square-testet

χ2 mäter den genomsnittliga avvikelsen mellan förväntade och observerade frekvenser: ju större den är desto sannolikare är det att det finns en skillnad mellan dem. Vi skulle kunna mäta detta helt exakt, men för enkelhets skull avgränsar vi beräkningen.

Alla statistiska tabeller inklusive Royal Statistical Societys tabeller (sida 6) använder avgränsningar. Låt oss använda kolumn 0,05 som refererar till en signifikansnivå på 5 %.

Den normala distributionen är baserad på två parametrar (median- och standardavvikelse) och Poisson-distribution på en parameter (medianen). Chi-Square-distributionen baseras på en parameter: frihetsgraden.

Här har vi 6 olika möjliga utfall. Därför söker vi värdet där frihetsgraderna (v) är en mindre: 5. Vår kritiska χ2 , alltså värdet som en χborde överskrida för att tyda på skillnad, är 11,070.

Eftersom vårt värde är mycket lägre finns det inga bevis för att tärningen avviker.

ChiSquare.png

Bild 1: Chi Square-tabellen i Royal Statistical Societys statistiska tabeller

Eftersom detta tar sin lilla tid har vi utvecklat en liten app här nedan som låter dig jämföra observerade och förväntade värden med varandra.

Se resultaten om de observerade värdena vore tiofaldiga (observerat = 90, 110, ; förväntat = 100 var) eller 100-falt (900, 1 100, ) trots att proportionerna är liknande bör du tänka på att det finns indikationer på att en tärning är missvisande vid större urval. Det beror på att en mindre avvikelse är möjlig, men en konsekvent avvikelse utgör en större indikation på divergens.

Begränsningar

Det leder till en viktig begränsning i testet: det kan erbjuda indikation (inte bevis) på en skillnad, men brist på bevis för en skillnad betyder inte att de är samma. Appen ovan använder dessutom en signifikansnivå på bara 5 %. Det motsvarar att diskrepanser som bör dyka upp i 1 fall av 20 i idealscenarion ses som tecken på skillnad. Slutligen behöver ett Chi-Square-test minst 5 väntevärden för varje kategori.  

Testa själv.

Chi-Square-appen

ObserveratFörväntat

Resultat

Känner du dig bättre rustad i jakten på bättre odds? Registrera ett konto hos Pinnacle för branschens bästa odds och de högsta gränserna som går att hitta. Om du är nybörjare på sportodds kan du läsa våra insiktsfulla spelartiklar.

Oddsresurser: Bli en bättre spelare

Pinnacles avdelning Oddsresurser är en av nätets mest omfattande artikelsamlingar med spelråd från experter. Vi tillgodoser behoven hos både nybörjare och proffs – vårt mål är helt enkelt att öka våra spelares kunskaper.