11 2, 2015
11 2, 2015

Metody bootstrappingu při práci s omezenými daty

Metody bootstrappingu při práci s omezenými daty
Co dělat, když sezóna teprve začíná, a není dostatek dat, ze kterých by bylo možné vyvodit spolehlivé závěry? Dominic v tomto článku na dvou příkladech vysvětluje, jak pomocí bootstrappingu minimalizovat účinek parametrické chyby způsobené malými vzorky.

Klíčovou metodou používanou při odhadu výsledku fotbalového zápasu je Poissonovo rozdělení, které je vysvětleno v předchozím článku od společnosti Pinnacle. Další informace o použití Poissonova rozdělení k předpovědi vítěze fotbalové sázky najdete zde.

V podstatě jde o přiřazení očekávaného průměrného skóre domácímu týmu na základě jeho útoků a hostujícímu týmu na základě jeho obranyschopnosti. Očekávané průměrné skóre se přiřadí i hostujícímu týmu.

Na začátku sezóny je použití této metody problematické, protože k vytvoření vzorku nemáme dostatek zápasů. Kromě toho také platí, že jeden mimořádný zápas, ve kterém bylo dosaženo vysoké skóre, nebo řada zápasů bez branek, bude mít na odhad velký vliv.

Dosažená parametrická chyba by byla vysoká. Další informace o tom, jak vytvořit model sportovního sázení, naleznete zde.

Jinou možností, jak měřit velikost parametrické chyby, je použít techniky bootstrapingu. Bootstrapping nabízí řešení, pokud chceme vytvořit větší vzorek.

V okamžiku psaní tohoto článku má například většina týmu hrajících Premier League odehráno méně než 5 domácích a 5 venkovních zápasů.

Jako příklad vám mohu doporučit dvě metody.

První metoda: přímočarý přístup

První metodou je vytvoření vzorku nahrazováním, tzn. vytvoření vzorku podobné velikosti tím, že stejnou hodnotu vybereme vícekrát.

Například v dosavadních utkáních Leicester City na domácím hřišti proti Aston Ville, West Hamu, Arsenalu a Crystal Palacu dosáhl tohoto skóre: 3, 2, 2 a 1. Když z tohoto vzorku vypočítáme průměr, dostaneme 2 góly na domácím hřišti na zápas. 

Nyní tyto hodnoty použijeme k vytvoření jiného náhodného vzorku čtyř gólových výsledků. Tato metoda se podobá metodě vytváření náhodných hodnot v simulaci Monte Carlo. Další možné sady vzorků:

  •       Vzorek 1: 2,2,2,1
  •       Vzorek 2: 1,1,3,2
  •       Vzorek 3: 3,3,2,2
  •       Vzorek 4: 1,2,1,1

Všimněte si, že dva góly by měly mít v každém zápase dvakrát větší pravděpodobnost než jeden nebo tři góly a že v jednotlivých případech můžeme získat jiný průměr než 2.

V tomto případě je průměr ze vzorku 1,75; 1,75; 2,5; 1,25. Mohli bychom se domnívat, že průměr je 2, ale ve skutečnosti je v intervalu 1,25 až 2,5.

Tuto metodu můžeme také rozšířit tím, že vypočítáme velký počet různých bootstrappových vzorků a podíváme se na výsledky směrodatné odchylky.

Druhá metoda: bláznivý pokus

U zápasů Leicesteru jsme si mohli vygenerovat očekávané skóre. Generování mohlo probíhat stejným způsobem jako u Poissonova rozdělení, ale tentokrát s použitím dat z předchozí sezóny.

Podívejme se například na zápasy s Aston Villou. Průměrný počet vstřelených gólů na domácím hřišti v sezóně Premier League 2014/15 byl 1,474. V 19 domácích zápasech dal Leicester 28 gólů, zatímco Aston Villa inkasovala v 19 zápasech na cizích hřištích jen 32 gólů.

Tím dostaneme útočnou sílu Leicesteru, která je 1, což odpovídá typickému týmu na domácím hřišti. Na druhou stranu Aston Villa inkasovala v průměru 1,684 gólu.

Pokud tuto hodnotu vydělíme koeficientem 1,474, dostaneme 114,29 %. Toto procento znamená, že Aston Villa inkasovala o 14 % více gólů, než je u ní na cizích hřištích obvyklé. Proto se dá očekávat, že Leicester dá Aston Ville na domácím hřišti v průměru 1*1,1429*1,474 = 1,684 gólu. 

Opakováním stejného postupu pro všechny jejich zápasy dostaneme očekávaný počet gólů vstřelených za zápas, který je uvedený v následující tabulce. Vidíme, že s výjimkou zápasů proti Crystal Palace dosahoval Leicester nadprůměrného skóre.

Tyto hodnoty jsou na řádku pojmenovaném Rozdíl. Používá se pro ně technický výraz „reziduální“.

Tým Aston Villa West Ham Arsenal Crystal Palace
Očekávané góly 1,684 1,526 1,158 1,263
Skutečné góly 3 2 2 1
Rozdíl 1,316 0,474 0,842 -0,263

Podobně jako u první metody teď máme vzorek s některými náhradními reziduálními hodnotami. Zde je několik vzorků s použitými reziduálními hodnotami:

  •       Vzorek 1: 1,316; 1,316; 0,474; 0,474
  •       Vzorek 2: 0,474; -0,263; -0,263; 0,474

Když teď tyto ukázkové reziduální hodnoty přidáme k očekávaným skóre, dostaneme další vzorky gólového skóre na domácím hřišti:

  •       Vzorek 1: 3,000; 2,842; 1,632; 1,737
  •       Vzorek 2: 2,158; 1,263; 0,895; 1,737

Každý vzorek bude mít vlastní průměr, který můžeme použít spolu s různými parametry k výpočtu průměrného počtu gólů vstřelených domácím týmem.

Závěr

Přestože tento výpočet není úplně přímočarý, nevyžaduje rozsáhlé programovací znalosti. Vytvořte si tabulku a můžete otestovat celou řadu možných parametrů. Nezapomeňte, že pokud použijete druhou metodu, která je popsána výše, budete muset analyzovat i reziduální hodnoty očekávaného počtu vstřelených gólů u hostujícího týmu. 

strategy-openaccount.jpg

Informační zdroje o sázení – Abyste mohli lépe sázet

Informační zdroje o sázení společnosti Pinnacle jsou jednou z nejrozsáhlejších sbírek odborných článků a rad o sázení, jaké na internetu najdete. Zajímavé informace v ní najdou sázkaři bez ohledu na míru svých zkušeností. Naším cílem je zprostředkovat lidem znalosti, aby mohli lépe sázet.