I en tidligere artikkel forklarte vi hvorfor spillere ikke bare bør basere seg på gjennomsnitt, da det har en tendens til å bli påvirket av anomalier, og heller ikke kan vise fordeling på et sett med tall.
Fordeling kan måles på mange måter, og en av disse er standardavviket. Dette er en verdi som uttrykker hvor mye verdien på en gruppe resultater skiller seg fra gjennomsnittet for gruppen. Man kan bruke forskjellige metoder, enten direkte eller som inndataparametre for en funksjon eller fordeling.
Poisson- kontra normalfordelingen
For eksempel bruker spillere Poisson-fordelingsmodellen for å forutse antall mål skåret per lag i fotballkamper. Men denne fordelingen har bare ett inndata-parameter, gjennomsnittet, og er en diskret fordeling, altså gir den utdata i form av heltall.
En Poisson-fordelingsmodell kan beregne sannsynligheten for å skåre ett mål, men ikke sannsynligheten for at det skåres et mål mellom 25. og 30. minutt (men den kan utvides for å derivere dette).
Normalfordelingen – også kjent som bjellefordelingen eller den gaussiske fordelingen – er også populær. Dette skiller seg fra Poisson-fordelingen på mange måter, først og fremst fordi det er en kontinuerlig fordeling, basert på to parametre: gjennomsnittet og standardavviket.
Forutsi målspredning i Premier League
Som eksempel kan vi se på målforskjeller i fotball. Det ser ut til at målforskjellen per kamp er normaldistribuert. Målforskjellen er antall mål skåret av hjemmelaget minus antall lag skåret av bortelaget. Null betyr at det var uavgjort.
La oss se på data fra 2013/14-sesongen av Premier League.
- Man City hadde den største hjemmeseieren: 7–0 mot Norwich.
- Liverpools 5–0-seier mot Tottenham var den største hjemmeseieren.
- Gjennomsnittlig målforskjell var 0,3789 (median og typetall = 0)
- Standardavviket var 1,9188,
Vi kan trekke en rekke konklusjoner basert på disse dataene. Først og fremst at den vanligste målforskjellen er uavgjort og at fordelingen er nesten symmetrisk, men med en liten overvekt mot hjemmeseier. Men fokuset for artikkelen vår er standardavviket.
Beregne standardavviket
Normalfordelingen bruker Her ligger omtrent 68 % innenfor ett standardavvik fra gjennomsnittet, og 95 % ligger innenfor to standardavvik.
I dette tilfellet forventer vi at 68 % av kampene skal ende opp mellom -1,5399 og 2,2977 mål (altså 0,3789 + 1,9188). Det har sine begrensninger at kurven er kontinuerlig: en målforskjell på -1,5399 er selvfølgelig ikke mulig i virkeligheten.
For å beregne en hjemmeseier med 1 i målforskjell, kan 1 flyttes fra heltallet 1 til å stå for området mellom 0,5 og 1,5. Så kan vi beregne differansen fra gjennomsnittet for hver av verdiene, uttrykt som standardavvik.
Det fine med dette er at vi nå kan endre normalfordelingen som vist her. I dette tilfellet må vi finne den oransje delen av området.
Det blå området viser at sannsynligheten for mindre enn 1 mål (eller den flytende ekvivalenten, 0,5 mål) er 52,15 %.
Målet er ikke å se nærmere på hvordan man beregner dette, men man finner det i de fleste typer regnearkprogramvare (i MS Excel: =NORM.DIST(0,5,0,3789, 1,9188,1). Tilsvarende er sannsynligheten for mindre enn 1,5 mål lik 72,05 %. Derfor kan vi forvente 19,53 % mellom disse to verdiene.
Så av 380 kamper beregner vi at 74,22 ender med at hjemmelaget vinner med ett mål. I virkeligheten var det 75 kamper, så dette var veldig nærme.
Ved å gjenta dette for målforskjellene, kan vi sammenligne faktisk og beregnet antall kamper som endte opp med forskjellige målforskjeller.
Tabellen nedenfor viser at avviket er minimalt, og at normalfordelingen ser ut til å passe godt (man kan teste for normalitet, og denne fordelingen passer fint til EPL-data fra 2013/14).
La oss nå anta at fordelingen er korrekt for denne sesongen av Premier League. Så hvis du spiller på spredning, ønsker du nok å vite sannsynligheten for at hjemmelaget vinner med ett eller flere mål i Premier League. Dette tilsvarer 1 – 52,52 %, altså 47,48 %.
Dett er selvfølgelig et generelt anslag, og gjelder for Premier League generelt og ikke individuelle lag. Men spillerne bør jobbe med data for individuelle lag i stedet for data for Premier League sammenlagt.
Standardavviket er altså ikke bare en måte å måle spredning på, der en høyere verdi viser større fordeling innad i en gruppe. Det er også et viktig parameter for å måle sannsynlighet, noe som er veldig nyttig for alle som tipper på sport. Vi kommer til å fokusere på hvordan et annet standardavvik kan påvirke sannsynlighet og spredninger i en senere artikkel.