close
9 19, 2017
9 19, 2017

Nástrahy systémů pro sportovní sázení: Korelace vs. kauzalita

Systémy pro sportovní sázení: Co je to regresní analýza?

Použití systému k předpovídání sázek

Nástrahy regresní analýzy

Nástrahy systémů pro sportovní sázení: Korelace vs. kauzalita

Chcete-li na sázení dlouhodobě vydělávat, neobejdete se bez sázkového systému. Sázkaři však sázkové systémy často zaměňují se správou peněz a pletou si korelaci s kauzalitou. Co je to sázkový systém a jak poznat rozdíl mezi korelací a kauzalitou? Čtěte dál a dozvíte se to.

Co je to sázkový systém?

Na rozdíl od metod určování výše sázky a strategií pro správu peněz, které představují způsob, jak stanovovat výši podávaných sázek, je systém sázení na sporty strukturovanou předpovědní metodologií postavenou na kvantitativní analýze údajů z minulosti. Jejím cílem je překonat bookmakerovu marži a najít kladnou očekávanou hodnotu.

Sázkaři si často pletou správu peněz a sázkové systémy – stačí na Googlu vyhledat „systém sázení“ („betting system“) a uvidíte, že většina nalezených stránek bude o různých strategiích, například Martingale, Labouchere a Fibonacci. Ty jsou ale ve skutečnosti něčím jiným.

Systém správy peněz jednoduše mění povahu rizika souvisejícího s vašimi sázkami. Nemůže však dlouhodobě změnit neúspěšnou metodu předpovídání v úspěšnou. Sázkový systém se naproti tomu snaží zjistit „skutečné“ pravděpodobnosti událostí nastávajících ve sportu.

Systémy sázení na sporty: Regresní analýza

Systémy sázení na sporty jsou nejčastěji založeny na statistické regresní analýze. Lidem neznalým statistického žargonu to může znít poněkud děsivě, je to ale vlastně metoda odhadování vztahů mezi různými proměnnými.

Ačkoli je regresní analýza při tvorbě sázkového systému užitečná, má jeden principiální nedostatek: neumí rozlišit korelaci a kauzalitu.

Nejjednodušší takovou metodou je prostá lineární regrese, která bere v úvahu pouze dvě proměnné, například počet gólů vstřelených týmem (prediktor neboli nezávislá proměnná) a frekvenci jeho vyhraných zápasů (reakce neboli závislá proměnná). 

Ve své první knize Fixed Odds Sports Betting: Statistical Forecasting & Risk Management (Sázení na sporty s pevnými kurzy: Statistická předpověď a správa rizik) jsem se zabýval jednoduchým regresním modelem založeným na relativní gólové převaze dvou týmů v jejich předchozích 6 zápasech.

S použitím velkého vzorku zápasů (v tomto případě 8 sezón z let 1993 až 2001) je možné nakreslit graf vypočtených hodnocení zápasů (gólový rozdíl domácího týmu za 6 zápasů minus gólový rozdíl hostujícího týmu za 6 zápasů) a frekvence jednotlivých výsledků zápasů. Níže uvádím rozdělení hodnocení zápasů (nezávislé proměnné) versus frekvence vítězství domácího týmu (závislá proměnná).

correlation-and-causation-inarticle.jpg

Ačkoli jednotlivé datové body v grafu jsou poněkud roztroušené, je ve vztahu těchto dvou proměnných patrný lineární trend: čím lepší je domácí tým relativně k týmu hostujícímu z hlediska jejich gólového rozdílu v posledních 6 zápasech, tím pravděpodobněji domácí tým zápas vyhraje.

Regresní čára znázorněná v grafu v podstatě popisuje ideální vztah mezi relativní gólovou převahou a frekvencí výhry domácího týmu po odstranění šumu neboli náhodného štěstí a smůly.

Tuto čáru lze popsat rovnicí. Protože jde o jednoduchý lineární regresní model, má tvar y = mx + c, kde y je závislá proměnná (pravděpodobnost výhry), x je nezávislá proměnná, tedy hodnocení zápasu, m je sklon či gradient trendové linie (a měřítko síly vztahu) a c je konstanta neboli bod, v němž čára prochází osou y (tedy kde x = 0). V tomto příkladu je rovnice tato:

% výhry domácích (1,56 x hodnocení zápasu) + 46,5

Je-li hodnocení zápasu nula (tedy domácí a hostující týmy jsou z hlediska gólového rozdílu zhruba vyrovnané), je pravděpodobnost výhry 46,5 %. To se intuitivně zdá přiměřené, neboť zhruba 46 % fotbalových zápasů končí vítězstvím domácích. Pokud má domácí tým v posledních šesti zápasech čistý gólový rozdíl oproti týmu hostujícímu deset a více, má tento tým podle regresního modelu typicky 62% šanci na výhru. Při 20bodovém náskoku pravděpodobnost roste na 78 %. 

Z naší regresní analýzy lze poznat i to, kolik z variability frekvence výher je vysvětleno tímto modelem sázkového systému. V tomto případě je to 86 %. Je to vidět na kvalitě shody trendové linie s daty. Z ní je vidět, že mezi těmito dvěma proměnnými existuje silná korelace.

Použití systému k předpovídání sázek

Chceme-li z našeho regresního modelu udělat plně funkční systém sázení, musíme předpovědět výsledek budoucích zápasů a pomocí těchto předpovědí určit sázky, které mají kladnou očekávanou hodnotu.

Systém správy peněz jednoduše mění povahu rizika souvisejícího s vašimi sázkami. Nemůže však dlouhodobě změnit neúspěšnou metodu předpovídání v úspěšnou.

Stejně jako u většiny modelovacích metod pracujeme se standardním předpokladem, že minulost je klíčem k budoucnosti. Jestliže předchozí zápasy s hodnocením +10 skončily ve 62 % vítězstvím domácích, pak předpokládáme, že domácí tým s 10bodovým gólovým náskokem nad soupeři bude mít v zápasu 62% pravděpodobnost výhry. 

Pak stačí tyto pravděpodobnosti převést na „skutečné“ kurzy a tak zjistit očekávanou hodnotu u bookmakera, který nabízí kurzy vyšší. Když jsem tento model použil na anglickou fotbalovou sezónu 2001/02, podařilo se mi dosáhnout zisku +2,1 % při 526 sázkách s nejlepším dostupným kurzem na vítězství domácích. Naproti tomu kdybych jen slepě vsadil na vítězství domácích ve všech zápasech v sezóně, prodělal bych 3,7 %.

Korelace vs. kauzalita 

Jedna sázková sezóna s o něco víc než 500 sázkami nezaručuje, že se ziskovost podaří zopakovat i v dalších sezónách. Může to vypadat jako dostatečný počet, z nějž už lze poznat spolehlivost sázkového systému. Pravidelný čtenář Informačních zdrojů o sázení nicméně dobře ví, že tomu tak není.

Článek společnosti Pinnacle o zákonu malých čísel připomíná, že i vzorky 1000 sázek mohou ukázat iluzorní vzorce ziskovosti, které ve skutečnosti nemají žádnou oporu v kauzalitě, ale vznikají čistě náhodou. Je smutné, že při použití tohoto sázkového systému na pět sezón vždy byla výsledkem ztráta.

Ačkoli tento jednoduchý regresní model využívající gólové převahy skvěle ukázal, které domácí týmy mají větší pravděpodobnost na výhru, nelze zaručit, že pomocí něho dokážete najít týmy, které mají větší pravděpodobnost výhry než naznačuje kurz vypsaný bookmakerem.

Mnoho sázkařů na sporty si bohužel při pohledu na své minulé sázky chybně vykládá přesnost, správnost a platnost a přitom si plete korelaci a kauzalitu.

Můj model by sice mohl dobře předpovídat, ale evidentně v tom není lepší než modely, které při určování kurzů používají bookmakeři, ani lepší než modely používané sázkaři, na základě jejichž sázek se tyto kurzy utvářejí a mění.

Pokud by můj model pouze napodoboval to, jak fungují modely bookmakerů, nebyla by ziskovost dlouhodobá a odrážela by jen rozmary náhody. Zdá se, že není založen na žádné platné korelaci. Předpovědi mého modelu takové zisky nepřinesly, protože nebyly přesnější než jiné modely, které se snažily o to samé.

Přesnost vs. správnost

Lineární regresní model se dvěma proměnnými samozřejmě těžko lze považovat za nejpokročilejší sázkový systém, pomocí nějž můžeme zjišťovat očekávanou hodnotu. Přesnost předpovědi lze zvýšit pomocí vícenásobné regrese, která používá více nezávislých proměnných neboli prediktorů. Analytici by však měli dát pozor, aby to nebylo na úkor správnosti.

Přesný model je takový, jehož hodnoty si jsou blízko, jak ukazuje například trendová linie mého jednoduchého lineárního regresního modelu výše. Přesnost však nezaručuje správnost. Správnost je opatření toho, jak blízko jste ke „skutečné“ hodnotě. Přesnost souvisí s náhodnými chybami a správnost s těmi systematickými (známými také jako zkreslení). 

Aby byl sázkový systém platný, tedy aby dělal skutečně to, co dělat má (tj. opakovaně nacházel ziskovou očekávanou hodnotu), musí být přesný i správný. Platnost implikuje předvídatelnost i trvalost, to znamená zda je to, co považujeme za příčinu, skutečnou příčinou, a zda naše měření opakovaně k takovému závěru vedou.

Mnoho sázkařů na sporty si bohužel při pohledu na své minulé sázky chybně vykládá přesnost, správnost a platnost a přitom si plete korelaci a kauzalitu. Jejich chyba spočívá v přesvědčení, že dosažené zisky byly „způsobeny“ jejich sázkovým systémem. Pravdou ale často bývá, že vydělali jen díky štěstí.

Nástrahy regresní analýzy

Ačkoli je regresní analýza při tvorbě sázkového systému užitečná, má jeden principiální nedostatek: neumí rozlišit korelaci a kauzalitu. Regresní analýza umí účinně zjistit souvislost mezi proměnnými, například vstřelenými a inkasovanými góly a pravděpodobností vítězství v zápasu. Nedokáže však zjistit, zda jedna proměnná způsobuje druhou.

Regresní analýza nám může ukázat, že když Barcelona prohraje, nevstřelí Lionel Messi ani gól. Neprozradí nám však už, jestli je důvodem prohry Barcelony právě to, že Lionel Messi neskóroval.

Pokud ve svém sázkovém systému nedosáhnete kauzality ani platnosti, musíte pamatovat na to, že nemusí být v předpovídání o nic lepší než modely používané ostatními. V prostředí relativních dovedností, jakým je i sportovní sázení, nedostáváme zaplaceno za pouhé předpovídání budoucnosti, ale musíme v něm být lepší než všichni ostatní.

Informační zdroje o sázení – Abyste mohli lépe sázet

Informační zdroje o sázení společnosti Pinnacle jsou jednou z nejrozsáhlejších sbírek odborných článků a rad o sázení, jaké na internetu najdete. Zajímavé informace v ní najdou sázkaři bez ohledu na míru svých zkušeností. Naším cílem je zprostředkovat lidem znalosti, aby mohli lépe sázet.