jan 5, 2018
jan 5, 2018

O problema com a prospeção de dados ("data mining") nas apostas desportivas

O que é a prospeção de dados e a dragagem de dados ("data dredging")?

Analisar a estratégia simples de "apoiar o empate"

Por que motivo os apostadores precisam de "contar os macacos"

O problema com a prospeção de dados ("data mining") nas apostas desportivas

Utilizar os dados como parte de uma estratégia de apostas é uma prática comum. No entanto, por muito impressionantes que alguns resultados possam parecer, o processo de produzir tais resultados é a parte importante. Quais são os problemas com a prospeção de dados ("data mining") nas apostas desportivas? Continue a ler para ter a resposta.

Ao longo dos últimos meses, tenho encontrado um número considerável de publicações em websites, blogues e fóruns, que afirmam ter descoberto sistemas de apostas lucrativos simplesmente ao aplicar de forma retrospetiva alguns critérios de seleção aparentemente arbitrários a um grande conjunto de dados de resultados históricos e probabilidades de apostas.

Neste artigo, investigo as armadilhas de procurar uma vantagem de lucro através da prospeção de dados: para o apostador desportivo, a correlação sem causa significa sarilhos.

Prospeção de dados ("data mining") e dragagem de dados ("data dredging")

A prospeção de dados diz respeito ao processo de analisar grandes conjuntos de dados para revelar padrões e informações. Mais especificamente, a dragagem de dados é a utilização da prospeção de dados para revelar padrões nesses dados que podem ser apresentados como sendo estatisticamente significativos.

Não podemos montar retroativamente uma explicação com base no resultado, visto que isso significa virar a causalidade de pernas para o ar.

As apostas desportivas prestam-se facilmente à prospeção e à dragagem de dados. Diversos websites disponibilizam grandes quantidades de resultados históricos de futebol e de probabilidades de apostas com a finalidade de pesquisar retrospetivamente e testar os sistemas de apostas lucrativos.

No entanto, a principal limitação de utilizar esta como uma ferramenta de análise de dados é que normalmente não se propõem hipóteses "a priori" para explicar o motivo pelo qual esses padrões poderão ter ocorrido.

Correlação sem causa

Anteriormente, já abordei as armadilhas de confundir correlação com causa, precisão com exatidão e validade. Para que um sistema de apostas seja válido e faça realmente aquilo que é suposto fazer, temos de ter alguma ideia sobre o que causa o seu sucesso em primeiro lugar.

A menos que estabeleça a causa por trás da correlação, não terá qualquer ideia sobre o que poderá fazer decompor a sua correlação - a correlação sem causa não tem qualquer significado.

Valor oculto na League Two inglesa de futebol?

Há algumas semanas, no meu feed do twitter, chamaram-me à atenção os retornos surpreendentes que alguém poderia ter conseguido se apostasse cegamente em todas as vitórias fora de casa na League 2 inglesa de 2012/13 a 2016/17 inclusive – aproximadamente 3000 apostas – chegando a 4,3% das probabilidades de fecho da Pinnacle e quase 10% dos melhores preços do mercado.

Apenas uma dessas cinco épocas assistiu a uma perda para os preços de fecho da Pinnacle, e essa foi pequena. O gráfico de lucros assemelha-se ao seguinte:

article-data-mining-3-in-article.jpg

A sugestão era que o mercado estava a subvalorizar as equipas que jogavam fora nesta divisão; isso quer dizer que estavam sobreavaliadas. No entanto, esta não é uma aberração a curto prazo; pelo contrário, parecia ser um erro consistente e sistemático na forma como os apostadores tinham subestimado a probabilidade de vitórias fora na League 2 inglesa, muito para além dos limites da margem de lucro da casa de apostas. Mas será que podemos acreditar realmente que há algo causal no que descobrimos aqui?

Apoiar o empate: parece tão simples

Outra estratégia que vi recentemente publicada chama-se "Apoiar o empate". Afirma ter produzido lucros de quase 16% sobre o volume de negócios de mais de 2500 apostas, quando testadas retrospetivamente em relação aos resultados de futebol e às correspondentes probabilidades de apostas da Pinnacle remontando até 2012.

Os critérios de seleção são simples: nenhuma das equipas deveria ter empatado nos três jogos anteriores; as probabilidades deveriam variar entre 3,20 e 3,56. Ao testar a significância estatística deste lucro, descobrimos que este registo é, de facto, excecional. Seria de esperar que um tal nível de rentabilidade destas probabilidades ocorresse talvez só uma vez num milhão de vezes ou menos, partindo do princípio de que o padrão não era nada senão aleatório.

Poderemos perguntar-nos por que razão foram escolhidos estes critérios em particular. Por que não os quatro, cinco ou seis jogos anteriores? Por que não as probabilidades de 3,07 a 3,41 ou de 3,13 a 3,72? É claro que estes critérios não foram, quase de certeza, escolhidos antes de os dados terem sido prospecionados; eles foram simplesmente encontrados para produzirem o resultado lucrativo que acabaram por produzir. E não podemos montar retroativamente uma explicação com base num resultado, visto que isso significa virar a causalidade de pernas para o ar.

A menos que estabeleça a causa por trás da correlação, não terá qualquer ideia sobre o que poderá fazer decompor a sua correlação.

Em defesa desta estratégia, poderia também dizer: “uma num milhão: certamente isso tem de significar que isto não é aleatório, certo?" Sim, é verdade. No entanto, se tivermos um milhão de estratégias para testar, e considerarmos que uma delas é estatisticamente significativa como esta, o que é que isso nos diz? Tal como Nassim Taleb narra, em Fooled by Randomness (Enganado pela aleatoriedade), sobre a fantasia dos macacos que tentam recriar a poesia de Homero num máquina de escrever:

"Se houver cinco macacos no jogo, ficaria deveras impressionado com o escritor da Ilíada, a ponto de suspeitar que ele fosse a reencarnação do antigo poeta. Se houver mil milhões para o poder de mil milhões de macacos, ficaria menos impressionado..."

Como Taleb salienta, não haveria muitas pessoas a dar-se ao trabalho de contar todos os macacos e, se o fizessem, dificilmente alguma delas encontraria padrões interessantes que valesse a pena referir. O viés de sobrevivência garante que só acabamos por ver os vencedores.

Por que motivo os apostadores precisam de "contar os macacos"

Se não propusermos hipóteses "a priori" antes de dragarmos os nossos dados em busca de padrões de lucro, então, pelo contrário, deveremos testar um grande número de sistemas de apostas para ver com que frequência encontramos significância estatística. Ao responder a esta discussão no meu feed do Twitter, disse: "vamos representar graficamente a distribuição dos rendimentos de 10 000 amostras de apostas cegas selecionadas de acordo com 10 000 critérios diferentes e ver a que se assemelha."

Pois bem, não consegui encontrar 10 000 amostras de apostas cegas de dimensão adequada – isso envolveria muitos dados – mas antes 1686 amostras de 100 apostas ou mais. Cada amostra representou uma época de apostas cegas num determinado resultado (vitória em casa, empate ou vitória fora) para uma única liga de futebol ao longo de uma única época.

Tendo primeiro retirado a margem de lucro da Pinnacle para calcular os preços "reais" para cada resultado, calculei depois os retornos teóricos para cada amostra e a sua estatística T, a minha medida preferida da improbabilidade de tais retornos ocorrerem devido à sorte. Estes estão representados em gráfico na distribuição abaixo. Os índices T positivos representam amostras com lucro, os índices negativos representam as perdas; quanto maior é o número, mais improvável ele é.

article-data-mining-2-in-article.jpg

Aqueles de vós que estão familiarizados com a distribuição normal (curva em forma de sino) reconhecê-la-ão como prova da aleatoriedade. Isto quer dizer que o desempenho destas amostras de apostas cegas se adapta rigorosamente àquilo que esperaríamos que acontecesse se tudo estivesse apenas sujeito ao acaso.

Considerado como um todo, evidentemente, há muito pouco ou mesmo nada de sistemático a acontecer. Estas épocas lucrativas na League 2 inglesa foram, muito provavelmente, apenas desempenhos de sorte revelados ao misturar os dados e ao encontrar algo inesperadamente que se assemelhava a um padrão de lucro causado pelo comportamento sistematicamente irracional do apostador ou da casa de apostas.

Os retornos das "reais" probabilidades em relação às cinco épocas considerados em conjunto teriam um índice T de +2,4, tornando implícita uma probabilidade de cerca de 1 em 100 (valor p) que aconteceria por acaso. Em termos estatísticos, isso é significativo, e se fôssemos publicar um trabalho académico sobre isso isoladamente, sentir-nos-íamos motivados a chamar-lhe algo real. Mas sabemos que, ao analisar a visão geral das coisas, quase de certeza não é; é apenas sorte cega.

Se nos propusermos criar um sistema de apostas através da dragagem de dados até encontrarmos critérios que sejam lucrativos, arriscamo-nos a não conseguir estabelecer relações causais para aquilo que encontramos.

Na verdade, uma amostra da época de 2007/08 para a League 2 inglesa teve um desempenho ainda melhor. Os 242 jogos, em relação aos quais tenho dados de dezembro até maio, mostraram um lucro teórico de mais de 29% (ou 35% a partir das probabilidades "reais" e retirando a margem). Tal desempenho poderia ser esperado por acaso em cerca de 1 em cada 1000 vezes. Foi o melhor desempenho entre as 1686 amostras. 

No total, 837, ou cerca de metade, delas deram origem a lucro mesmo com as probabilidades "reais", tal como era esperado. Numa tal amostra de amostras, seria natural esperarmos que a melhor apresentasse um valor p de cerca de 1 em 1686. Seria de esperar que cerca de 16 das amostras (ou cerca de 1%) tivessem valores p inferiores a 1 em 100. Da mesma forma, seria de esperar que cerca de 168 amostras (ou cerca de 10%) tivessem valores p inferiores a 1 em 10. Se ocorresse algo diferente, questionar-nos-íamos, com razão, se alguma delas estaria a ser influenciada por outra coisa que não a sorte.

Na verdade, houve 15 (0,9%) e 158 (9,4%), respetivamente, que estavam bastante próximas da expetativa. O gráfico abaixo compara a expetativa teórica da percentagem de amostras lucrativas com os valores p abaixo de um limiar em particular (1 em 10 = 10%, 1 em 5 = 20% e por aí em diante) com a percentagem real ocorrida. A equivalência quase perfeita é notável.

No fundo, o gráfico é outra forma de dizer que quase tudo aquilo que estivemos a observar surgiu como resultado do acaso e apenas do acaso. Sim, uma rentabilidade de 1 em 1000 é impressionante, mas se tivermos mais de 1000 amostras entre as quais escolher, já não é inesperada e, assim, não é uma forte evidência de algo causal. 

article-data-mining-1-in-article.jpg

O que podem os apostadores aprender sobre a prospeção e a dragagem de dados?

Talvez não seja de surpreender que a distribuição da rentabilidade pela divisão de futebol sazonal seja aleatória. É dificilmente o meio mais sofisticado de conceber um sistema de apostas. Mas a questão significativa é a seguinte: se nos propusermos criar um sistema de apostas através da dragagem de dados até encontrarmos critérios que sejam lucrativos, arriscamo-nos a não conseguir estabelecer relações causais para aquilo que encontramos. 

A menos que tenhamos um motivo para explicar porque aquele lucro ocorreu, poderá ser apenas um completo disparate. A correlação sem causa simplesmente regride à média. Para um apostador desportivo, isso significa perder dinheiro a longo prazo.

Poderíamos argumentar que não há nada de errado em tirar partido da sorte para ter lucro; afinal, as apostas são isso mesmo. No entanto, quando o fazemos, não nos deveríamos enganar ao partir do princípio de que o nosso sucesso é uma consequência de outra coisa qualquer.

Recursos de apostas - Capacitar as suas apostas

Os Recursos de apostas da Pinnacle são um dos conjuntos mais abrangentes de conselhos de especialistas sobre apostas que se podem encontrar online. Dar resposta a todos os níveis de experiência - o nosso objetivo é simplesmente capacitar os apostadores a obterem mais conhecimentos.