Como utilizar a técnica de "bootstrap" quando não há dados suficientes

Como utilizar a técnica de "bootstrap" quando não há dados suficientes
O que fazer quando a época ainda está no início e não existem dados suficientes para extrair conclusões fiáveis? Neste artigo, usando dois exemplos, Dominic explica como é possível utilizar a técnica de "bootstrapping" para minimizar o efeito de um erro paramétrico resultante de amostras reduzidas.

A distribuição de Poisson é um método essencial usado para desenvolver expectativas para um jogo de futebol, conforme explicado num artigo anterior da Pinnacle. Saiba mais sobre como prever uma aposta vencedora no futebol usando a distribuição de Poisson aqui.

Basicamente, a distribuição de Poisson atribui uma média esperada de golos marcados para uma equipa visitada consoante a sua capacidade ofensiva e a capacidade defensiva das equipas visitantes.  Aplica igualmente uma média esperada de golos marcados pela equipa visitante.

Contudo, no início da época, a utilização deste método iria deparar-se com um problema: a inexistência de jogos suficientes para constituir a amostra. Além disso, se tiver lugar um jogo com um resultado incomum, por exemplo um jogo com muitos golos ou uma série de jogos que terminam num empate a 0, tal irá afetar significativamente a nossa estimativa.

De facto, teríamos um erro paramétrico elevado. Pode encontrar aqui mais informações sobre como construir um modelo de apostas desportivas.

Uma sugestão para medir o valor do erro paramétrico passa pela utilização da técnica de "bootstrapping". A técnica de "bootstrapping" diz respeito a uma solução na qual inventamos as dimensões da amostra.

Na altura da redação do presente artigo, a maioria das equipas da Premier League tinham disputado menos de 5 jogos em casa e 5 jogos fora.

A título de exemplo, recomendo dois métodos.

Método 1: A abordagem direta

Este método implica realizar a amostragem com recurso à substituição, ou seja, criar amostras de dimensão similar sendo capaz de escolher o mesmo valor mais do que uma vez.

Se tivermos em conta os jogos em casa do Leicester City, a equipa marcou 3, 2, 2 e 1 golos contra o Aston Villa, West Ham, Arsenal e Crystal Palace respetivamente. Esta amostra tem uma média de 2 golos marcados pela equipa da casa por jogo. 

Agora, vamos produzir outra amostra aleatória de quatro golos usando estes valores. Este método é semelhante à criação de valores aleatórios da simulação de Monte Carlo. Como tal, os conjuntos de amostras adicionais poderiam ser:

  •       Amostra 1: 2,2,2,1
  •       Amostra 2: 1,1,3,2
  •       Amostra 3: 3,3,2,2
  •       Amostra 4: 1,2,1,1

De referir que dois golos devem ter o dobro da probabilidade de serem extraídos do que um ou três golos e que podemos ter uma média diferente em cada caso; não são sempre dois.

Neste caso, as médias por amostra são 1,75, 1,75, 2,5 e 1,25 respetivamente. Pensamos que a média é 2, mas os nossos valores demonstram que pode ir de 1,25 a 2,5.

Podemos ir ainda mais longe calculando um número significativo de amostras diferentes com recurso à técnica de "bootstrapping" e ver os resultados do desvio padrão.

Método 2: Pensemos em grande

Assim, para os jogos do Leicester poderíamos ter gerado um "resultado esperado". Pode ser gerado da mesma forma do que o método de Poisson, mas usando dados da última época.

A título de exemplo, vamos analisar o jogo contra o Aston Villa. A média de golos marcados em casa durante a época 2014/15 da Premier League foi 1,474. O Leicester marcou 28 golos em 19 jogos em casa enquanto o Aston Villa sofreu apenas 32 golos em 19 jogos na condição de equipa visitante.

Como resultado, a "Capacidade Ofensiva" do Leicester é 1, ou seja, o Leicester é uma equipa típica a jogar em casa. Por outro lado, o Aston Villa sofreu uma média de 1,684 golos.

Se dividirmos este número por 1,474, obtemos um resultado de 114,29%, o que significa que o Aston Villa sofreu 14% mais golos do que o normal quando joga na condição de visitante. Por conseguinte, na recepção ao Aston Villa, seria de esperar que o Leicester marcasse uma média de 1*1,1429*1,474 = 1,684 golos. 

Repetindo o mesmo processo para todos os jogos do Leicester, o número esperado de golos marcados para cada jogo é apresentado na tabela abaixo. Podemos ver que o Leicester tem estado com um desempenho acima da média ao marcar mais golos do que seria de esperar, à exceção do jogo contra o Crystal Palace.

Estes são apresentados na linha Diferença, cujo termo técnico é residual.

Equipa Aston Villa West Ham Arsenal Crystal Palace
Golos esperados 1,684 1,526 1,158 1,263
Golos efetivos 3 2 2 1
Diferença 1,316 0,474 0,842 -0,263

À semelhança do método 1, agora temos uma amostra com a substituição de alguns residuais. Como tal, alguns possíveis residuais da amostra são:

  •       Amostra 1: 1,316, 1,316 e 0,474, 0,474
  •       Amostra 2: 0,474, -0,263 e -0,263, 0,474

Agora, adicionamos estes residuais da amostra aos resultados esperados para obter outras amostras de golos marcados na condição de equipa visitada:

  •       Amostra 1: 3,000, 2,842 e 1,632, 1,737
  •       Amostra 2: 2,158, 1,263 e 0,895, 1,737

Cada amostra deve ter a sua própria média e podemos usá-la para calcular o número médio de golos marcados pela equipa da casa para diferentes parâmetros.

Conclusão

Não se trata exatamente de um cálculo rápido, mas também não é necessário ter vastos conhecimentos em termos de programação. Meta mãos à obra na sua folha de cálculo e pode testar uma série de parâmetros possíveis. Contudo, não se esqueça de que também terá de analisar os residuais do número esperado de golos marcados pela equipa visitante, caso utilize o segundo método descrito anteriormente. 

strategy-openaccount.jpg

Recursos de apostas - Capacitar as suas apostas

Os Recursos de apostas da Pinnacle são um dos conjuntos mais abrangentes de conselhos de especialistas sobre apostas que se podem encontrar online. Dar resposta a todos os níveis de experiência - o nosso objetivo é simplesmente capacitar os apostadores a obterem mais conhecimentos.