Wykorzystanie metody bootstrap przy niewielkiej próbce danych

Wykorzystanie metody bootstrap przy niewielkiej próbce danych
Co możemy zrobić, gdy sezon dopiero się zaczyna i brakuje nam danych do wyciągnięcia miarodajnych wniosków? W niniejszym artykule Dominic wyjaśnia na dwóch przykładach, w jaki sposób metody bootstrapowe mogą pomóc nam zminimalizować efekty błędów parametrycznych wynikających z niewielkich rozmiarów próbki.

Podstawową metodą przewidywania wyników meczów piłkarskich jest rozkład Poissona szczegółowo opisany w jednym z wcześniejszych artykułów Pinnacle. Tutaj możesz się dowiedzieć, jak wytypować zwycięzcę meczu za jego pomocą.

Rozkład Poissona polega w skrócie na określeniu oczekiwanej średniej liczby bramek gospodarzy w oparciu o ich skuteczność w ataku i o siłę obrony rywala. Pozwala on również wytypować średnią oczekiwaną liczbę bramek zespołu gości.

Niestety na początku sezonu zastosowanie tej metody może być problematyczne z uwagi na niewielką liczbę rozegranych meczów. Ponadto jeśli zaobserwujemy ekstremalne wyniki, na przykład pojedynczy mecz z dużą liczbą bramek lub serię meczów bez bramek, wpłynie to znacząco na naszą ocenę.

Otrzymamy wtedy rażący błąd wynikający z złego doboru parametrów. Więcej informacji na temat sposobu budowania modeli bukmacherskich znajdziesz tutaj.

Jednym ze sposobów mierzenia błędów parametrycznych są tak zwane metody bootstrapowe. Bootstrapping oznacza rozwiązanie, w którym sami określamy wielkości próbek.

W chwili, gdy powstawał niniejszy artykuł, większość zespołów Premier League zdołała rozegrać mniej niż 5 meczów u siebie i na wyjeździe.

W takim wypadku możemy zastosować dwie metody:

Metoda 1: bezpośrednia

Ta metoda oznacza tak zwane próbkowanie ze zwracaniem, czyli tworzenie podobnych próbek z możliwością ponownego wyboru tej samej wartości.

Weźmy za przykład mecze Leicester City rozgrywane na własnym boisku. Gospodarze strzelili 3, 2, 2 i 1 bramkę odpowiednio Aston Villi, West Hamowi, Arsenalowi i Crystal Palace. Średnia wynosi zatem 2 bramki na własnym boisku na mecz. 

Utwórzmy teraz inną losową próbkę czterech wyników z wykorzystaniem wcześniejszych rezultatów. Metoda ta przypomina tworzenie losowych wartości metodą Monte Carlo. Dodatkowy zestaw próbek może wyglądać następująco:

  •       Próbka 1: 2,2,2,1
  •       Próbka 2: 1,1,3,2
  •       Próbka 3: 3,3,2,2
  •       Próbka 4: 1,2,1,1

Zwróć uwagę, że szansa wylosowania dwóch bramek powinna być dwukrotnie większa niż jednej lub trzech i że w każdym przypadku możemy osiągnąć inną średnią – nie zawsze wyniesie ona 2.

 W naszym przykładzie średnia wynosi odpowiednio 1,75, 1,75, 2,5 i 1,25. Wydaje nam się, że średnia powinna wynieść 2, ale z naszych wartości wynika, że może się ona wahać w zakresie od 1,25 do 2,5.

Możemy dalej rozszerzyć naszą metodę, obliczając wiele innych bootstrapowanych próbek i przyglądając się ich odchyleniu standardowemu.

Metoda 2: zaszalejmy

Wygenerujmy tak zwany „wynik oczekiwany” dla Leicesteru. Można zrobić to tak samo, jak w metodzie Poissona, ale korzystając z danych z ubiegłego sezonu.

Przeanalizujemy na przykład mecze przeciwko zespołowi Aston Villa. Średnia liczba bramek zdobytych na własnym boisku w sezonie 2014/15 wyniosła 1,474. Leicester zdobył 28 bramek w 19 meczach na własnym boisku, a Aston Villa straciła tylko 32 w 19 meczach na wyjeździe.

Wyniki te przekładają się na siłę ataku Leicesteru na poziomie 1, czyli tyle, co przeciętnej drużyny grającej u siebie. Z drugiej strony Aston Villa straciła średnio 1,684 bramki na mecz.

Jeśli podzielimy ten wynik przez 1,474, otrzymamy 114,9%. Oznacza to, że Aston Villa straciła 14% więcej bramek niż wynosi średnia dla meczów na wyjeździe. Zatem średni oczekiwany wynik Leicesteru grającego u siebie z Aston Villą wynosi 1 × 1,1429 × 1,474 = 1,684 bramki. 

Powtórzyliśmy ten sam proces dla wszystkich meczów zespołu i otrzymaliśmy wyniki zamieszczone w poniższej tabeli. Możemy zauważyć, że Leicester spisywał się znakomicie, strzelając więcej bramek, niż oczekiwano, w pojedynkach ze wszystkimi rywalami oprócz Crystal Palace.

Wynik ten możemy zaobserwować w rzędzie zatytułowanym „Różnica”. W terminologii statystycznej nazywa się go resztą.

Drużyna Aston Villa West Ham Arsenal Crystal Palace
Oczekiwana liczba bramek 1,684 1,526 1,158 1,263
Rzeczywista liczba bramek 3 2 2 1
Różnica 1,316 0,474 0,842 -0,263

Podobnie jak w pierwszej metodzie, mamy teraz próbkę z zastąpionymi niektórymi resztami. Przykładowe reszty mogą wyglądać następująco:

  •       Próbka 1: 1,316, 1,316, 0,474, 0,474
  •       Próbka 2: 0,474, -0,263, -0,263, 0,474

Dodamy teraz reszty do wyników oczekiwanych, aby otrzymać inne próbki wyników na własnym boisku:

  •       Próbka 1: 3,000, 2,842, 1,632, 1,737
  •       Próbka 2: 2,158, 1,263, 0,895, 1,737

Każda próbka ma swoją własną średnią, dzięki której możemy obliczyć średnią liczbę bramek strzelonych przez gospodarzy przy różnych parametrach.

Podsumowanie

Nie są to może obliczenia, które możemy wykonać na kolanie, ale nie wymagają też specjalistycznej wiedzy matematycznej. Uruchom swój arkusz kalkulacyjny i sprawdź szeroki zakres możliwych parametrów. Pamiętaj, że jeśli chcesz użyć drugiej z przedstawionych powyżej metod, musisz przeanalizować również reszty uzyskane podczas obliczania oczekiwanej liczby bramek strzelonych przez zespół gości. 

strategy-openaccount.jpg

Przydatne informacje o zakładach — pomoc dla obstawiających

Dział przydatnych informacji o zakładach to jeden z najobszerniejszych zbiorów materiałów z poradami ekspertów, jaki został udostępniony online. Materiały przeznaczone są dla osób o wszystkich poziomach doświadczenia. Przede wszystkim staramy się pomóc osobom obstawiającym w podejmowaniu świadomych decyzji.