jan 10, 2020
jan 10, 2020

Segunda parte: Utilizar o Fator de Bayes para avaliar a competência nas apostas

Utilizar o Fator de Bayes para analisar um registo de apostas

O Fator de Bayes e a hipótese do valor da linha de fecho

Os defeitos do Fator de Bayes

Segunda parte: Utilizar o Fator de Bayes para avaliar a competência nas apostas
Na primeira parte deste artigo, Joseph Buchdahl apresentou a ideia de se utilizar o Fator de Bayes para testar a competência nas apostas. Agora, utiliza histórias de apostas reais para mostrar como podemos testar se os resultados se devem à sorte ou à competência. Continue a ler para saber mais.

Na primeira parte deste artigo de duas partes, apresentei o Fator de Bayes como uma métrica que pode ser utilizada para comparar as forças relativas de duas hipóteses estatísticas contraditórias. Como seria de esperar, este terá as suas utilizações na análise de apostas.

Agora, na segunda parte, examinarei três exemplos de como o Fator de Bayes pode ser utilizado neste contexto e, em particular, como podemos avaliar se um apostador possui algum grau de competência ao conseguir obter lucro.

Utilizar o Fator de Bayes para analisar um registo de apostas

Talvez a forma mais óbvia de determinar se um apostador tem algum tipo de competência é comparar aquilo que ele julga que deve alcançar em função da respetiva metodologia de previsão com aquilo que a casa de apostas espera que ele alcance. Por defeito, a casa de apostas terá a expetativa ou, pelo menos, desejará, que cada apostador perca uma percentagem da receita definida pela sua margem. Para os mercados populares da Pinnacle, essa é normalmente cerca de -2,5%.

Podemos utilizar o Fator de Bayes para estimar a probabilidade de que um apostador que acredita ser capaz de alcançar um resultado melhor do que este estará a demonstrar uma determinada medida de competência.

Ao utilizarmos a função NORMDIST do Excel, conforme descrito na primeira parte do artigo, o gráfico abaixo representa as proporções de probabilidades (likelihood ratios, LR) e os Fatores de Bayes (Bayes Factors, BF) para um apostador no Handicap asiático ou no spread de pontos, que efetua 1000 apostas com probabilidades de 1,95 e que tem uma expetativa de +5% (H1). Com uma margem de -2,5%, as probabilidades justas implícitas e a possibilidade de vitória de cada aposta são de 2,00 e 50%, respetivamente (H0). 

O gráfico mostra como as LR e os BF variam com o rendimento observado.

bayes-factor-in-article-2.jpg

Caso o apostador alcance um rendimento de +5% tendo tido essa expetativa, BF = 13,7 e LR = 19,3. Segundo Jeffreys, tal deixaria implícita uma evidência forte, mas não decisiva, de que estaria a alcançá-lo através da competência e não da sorte. Comparemos este a um valor p de 0,75% (ou seja, 1 em 133).

Sem dúvida, uma análise do Fator de Bayes irá obter conclusões mais conservadoras do que um equivalente ao valor de p, e com toda a razão. Com demasiada frequência, os apostadores podem ser enganados por valores de p baixos e levados a acreditar que estes deixam implícita a evidência de competência quando, na verdade, eles simplesmente lhe indicam a possibilidade de algo acontecer por acaso partindo do pressuposto de inexistência de competência.

Se vencer a linha de fecho justa por +5%, a sua expetativa de lucro é de 5%, e testar amostras de maiores dimensões de dados com probabilidades para jogos de futebol revelou que normalmente ganhará +5%.

Para obter evidências decisivas de uma competência de +5%, um apostador precisaria de um rendimento de cerca de +7,4% após 1000 apostas, mas caso tivesse alcançado tal desempenho, poderíamos preferir uma versão diferente de H1 (por exemplo, H1 = 7,4%), e poderíamos testá-la face à H1 original = +5% ou até face a H0 = -2,5%. Não se esqueça que uma análise do Fator de Bayes só compara as probabilidades relativas de duas hipóteses, e não compara nenhuma delas com a “verdade”.

Para alcançar um nível decisivo de evidências (BF = 100) de que um rendimento observado irá corresponder a uma vantagem esperada de +5%, considerando a margem de -2,5% da casa de apostas, seriam necessárias cerca de 1675 apostas. Para tal registo, o valor p seria agora de 0,08% ou de 1 em 1250. Alguns estatísticos recomendam cada vez mais um limiar de valor p mais rígido antes de declararem a significância estatística. Nassim Taleb, autor de Fooled by Randomness e The Black Swan, por exemplo, defendeu um valor p mínimo de 0,1%. Neste exemplo, tal ajustar-se-ia bem perto de um Fator de Bayes de cerca de 100.

O gráfico abaixo ilustra como a LR e o BF variam com a dimensão da amostra de apostas para este cenário, em que H0 = -2,5%, H1 = +5%, e o desempenho observado corresponde exatamente à H1. O BF é normalmente mais pequeno do que a LR, nos casos em que a H1 e a observação são próximos, devido à utilização de uma distribuição da probabilidade para descrever H1; tal aumenta a incerteza e diminui a confiança relativamente à utilização de um valor específico de H1 utilizado num teste puro de proporção de probabilidades.

Quando a H1 se afasta mais da observação, o BF pode ser superior à LR, tal como o gráfico acima ilustra claramente, e tal como era o caso da moeda atirada ao ar referido na primeira parte.

bayes-factor-in-article-3.jpg

Alterar as probabilidades, naturalmente, altera consideravelmente os valores. Com probabilidades de 5,00, um desempenho observado de +5% com a H1 = +5% e H0 = -2,5% sobre 1000 apostas tem um Fator de Bayes de apenas 2,89. Probabilidades maiores, maior variação, maior incerteza.

Pois bem, seria impossível excluir a sorte, embora com um valor p de 4,57%, alguns observadores poderiam optar por fazer isso mesmo. Precisamos de cerca de 3500 apostas para alcançar um BF = 100. O valor p equivalente é, uma vez mais, cerca de 0,08% ou de 1 em 1250. Para probabilidades de 7, precisamos de 10 400 apostas para evidências decisivas a favor de H1 aqui e, uma vez mais, o valor p é de 0,08% (1 em 1250). Taleb e Jeffreys estão evidentemente de acordo.

Utilizar o Fator de Bayes para confirmar o grau de ajuste

Podemos também utilizar o Fator de Bayes como um teste de quase grau de ajuste. Neste tipo de teste, quando os resultados reais se assemelham bastante àqueles que eram esperados (previstos) a priori, tal é uma indicação de que o nosso modelo está a fazer o que é suposto fazer.

Desde agosto de 2015, tenho publicado seleções de apostas de valor com base numa metodologia de Sabedoria da Multidão que utiliza a sabedoria (eficiência) das probabilidades de apostas da Pinnacle para os jogos de futebol como a base para determinar as “verdadeiras” possibilidades de resultados.

A hipótese da metodologia é que a proporção de probabilidades de outra casa de apostas face às probabilidades da Pinnacle sem incluir a sua margem proporciona o seu valor esperado. Por exemplo, se o bet365 oferecer probabilidades de 2,5 em como o Liverpool vence o Manchester City, e a Pinnacle tiver um preço justo de 2,4 depois de retirada a margem, o seu valor esperado para tal aposta é de 2,5/2,4 = 4,17%. Agregado numa amostra de apostas, o seu valor esperado é simplesmente o valor esperado médio sobre essas apostas.

Conhecer especificamente o valor esperado do histórico de apostas (H0) permite-nos compará-lo diretamente com o rendimento efetivo (H1) depois de cada aposta. Quanto mais próximos estiverem o rendimento esperado e o rendimento efetivo, mais provável será que essa metodologia esteja a funcionar como previsto. O Fator de Bayes permite-nos fazer uma tal comparação do grau de ajuste. Quanto mais próximo de um estiver o valor, melhor é o ajuste entre a expetativa e o desempenho.

O gráfico da série temporal abaixo representa a evolução das proporções de probabilidades e dos Fatores de Bayes após cada aposta na série temporal.

O desempenho abaixo do valor real durante as primeiras 1000 apostas significou que uma análise do Fator de Bayes não pôde excluir o facto de que havia algo de errado com o meu modelo, uma vez que havia evidências moderadas de que o desempenho esperado (H0) era significativamente diferente do desempenho efetivo (H1). Depois disso, o desempenho regrediu em direção à média prevista, e tanto a LR como o BF raramente se desviaram muito do valor de um. Após 9681 encontros, o rendimento esperado foi de 4,18%, enquanto o rendimento efetivo foi de 4,02%.

bayes-factor-in-article-4.jpg

Utilizar o Fator de Bayes para testar a hipótese do valor da linha de fecho

Os leitores que estejam familiarizados com o meu trabalho terão conhecimento do apoio que dou à hipótese do valor da linha de fecho (closing line value, CLV), a ideia de que a linha de fecho ou as probabilidades de fecho (antes de aplicada a margem), em particular para os mercados 1X2 de futebol, representam a melhor medida possível da possibilidade de vitória, e é um excelente elemento de previsão do rendimento efetivo das apostas.

Com demasiada frequência, os apostadores podem ser enganados por valores de p baixos e levados a acreditar que estes deixam implícita a evidência de competência quando, na verdade, eles simplesmente lhe indicam a possibilidade de algo acontecer por acaso partindo do pressuposto de inexistência de competência.

Se vencer a linha de fecho justa por +5%, a sua expetativa de lucro é de 5%, e testar amostras de maiores dimensões de dados com probabilidades para jogos de futebol revelou que normalmente ganhará +5%.

Não obstante, estou aberto à possibilidade de que esta hipótese possa não ser sempre exata. De facto, em setembro de 2019, explorei a fraca ineficiência de um mercado de apostas em partidas de ténis enquanto analisava o desempenho de @nishikoripicks, um especialista de apostas no ténis que apresentava um rendimento de +8,6% apesar de uma expetativa CLV de -0,3%. Tal discrepância é muito indicadora de que algo poderá estar errado com a hipótese CLV, pelo menos para o ténis. Podemos utilizar o Fator de Bayes para descobrir até que ponto é indicadora disso.

Uma vez mais, seguindo a metodologia que descrevi na primeira parte, calculei a proporção de probabilidades e o Fator de Bayes contínuos após cada aposta no registo de apostas de @nishikoripicks e representei-os no gráfico abaixo.

Para isso, parte-se do princípio de que evH0 é o valor esperado cumulativo da linha de fecho. Para cada aposta, o valor esperado da linha de fecho é calculado através da proporção das probabilidades de apostas aconselhadas por @nishikoripicks face às probabilidades de fecho depois de removida a margem da Pinnacle. Por exemplo, se ele tivesse apostado 2,5 e o preço de fecho com a margem retirada fosse de 2,45, então o seu valor esperado da linha de fecho seria de 2,5/2,45 – 1 = 2,041%.

O valor esperado cumulativo da linha de fecho é então a média de todas as apostas precedentes. Partiu-se do princípio de que evH1 era equivalente ao rendimento atual após cada aposta e, assim, é da mesma forma atualizado aposta a aposta tal como é evH0. Por outras palavras, o rendimento atual de @nishikoripicks depois de cada aposta foi considerado a melhor medida para o seu valor esperado efetivo.

bayes-factor-in-article-5.jpg

Embora o Fator de Bayes seja normalmente mais conservador do que a proporção de probabilidades (como notámos anteriormente quando os dados observados correspondiam a H1), eles são largamente semelhantes. Após cerca de 2000 apostas, há uma diferença decisiva mantida entre os dois modelos para aquele que esperamos que seja o rendimento de @nishikoripicks. 

No final da sua história, BF = 1,912 e LR = 2,704. Se se partir do princípio de que o rendimento efetivo de @nishikoripicks é uma medida exata do seu rendimento esperado, então tal sugeriria que a hipótese de valor da linha de fecho estaria muito provavelmente incorreta neste caso. 

É claro que esta análise do Fator de Bayes não nos diz se o rendimento efetivo de @nishikoripicks é uma medida exata do seu rendimento esperado; simplesmente partimos desse pressuposto nesta análise. Diz-nos apenas que se for, é decisivamente melhor do que a hipótese do valor da linha de fecho.

Contudo, pode acontecer que ele tenha mais sorte do que se espera; talvez o seu verdadeiro rendimento esperado seja de 5%. Se fosse esse o caso, então uma comparação dos dois modelos H1 = +5% e H0 = -0,3% mostraria um BF de apenas 11,8.

Além disso, continua a existir a possibilidade de a Pinnacle não estar a responder à atividade de @nishikoripicks no mercado por outros motivos que não a ineficiência do mercado. Desde que não saibamos que montantes ele aposta, que montantes os seus clientes apostam e até se esses clientes sequer apostam na Pinnacle, continua a existir a possibilidade de que as linhas não respondam da forma como esperamos (ou seja, por 8,6% + a margem) simplesmente porque a sua atividade não é suficiente para que elas se movam assim tanto. 

Contrariamente ao fracasso de @nishikoripicks em mover as linhas de acordo com a hipótese de valor da linha de fecho, outro apostador, cujo registo analisei para o meu artigo sobre como utilizar a linha de fecho para testar a sua competência nas apostas, apresenta movimentos das probabilidades amplamente em linha com a hipótese.

O registo de apostas no ténis em 2019 deste indivíduo consiste em 2223 apostas que apresentam um valor esperado da linha de fecho de 2,96% e um rendimento efetivo de paradas constantes de 4,37% (embora o seu retorno efetivo fosse um pouco menos devido aos tamanhos das paradas variáveis). Se H1 = 4,37% e H0 = 2,96%, então LR = 1,22 e BF = 0,86, sugerindo que nenhum dos modelos é superior ao outro.

Incluindo também os outros desportos em que aposta, o seu registo global para 2019 até à data é o seguinte: apostas = 14 333; rendimento esperado = 2,92%, rendimento efetivo de paradas constantes = 3,51%, LR = 1,25, BF = 0,88.

Uma vez que os movimentos das probabilidades do tipo que este apostador testemunha são completamente impossíveis de alcançar por acaso, tais números seriam consistentes com o facto de a hipótese de valor da linha de fecho (closing line value hypothesis, CLVH) ser uma hipótese válida. Embora @nishikoripicks assista de facto à diminuição de algumas probabilidades (cerca de 3%), por que motivo não é muito mais e em linha com os seus retornos efetivos terá de permanecer uma pergunta em aberto.

Os defeitos do Fator de Bayes

Na minha opinião, um defeito significativo do Fator de Bayes é que continua a assemelhar-se muito a um valor p frequentista no sentido em que se baseia nas possibilidades dos dados que ocorrem se determinada hipótese ou modelo for verdadeiro. O sucesso real da estatística Bayesiana é que ela identifica o inverso – a possibilidade de que a hipótese seja verdadeira em função dos dados que vemos.

Talvez isto esteja a subestimar um pouco o Fator de Bayes. Na verdade, mostramos abaixo uma expressão mais completa com base na possibilidade de as hipóteses serem verdadeiras.

bayes-skill-formula9.png

P(H0) e P(H1) são as probabilidades anteriores de as duas hipóteses contraditórias serem verdadeiras, enquanto P(H1|D) e P(H0|D) são as probabilidades posteriores de H1 e H0 serem verdadeiras considerando alguns dados observados.

Quando P(H1) = P(H0), então o Fator de Bayes representa especificamente a proporção das probabilidades posteriores e a possibilidade de que um modelo seja mais verdadeiro do que o outro.

No entanto, os problemas com a estatística Bayesiana é que, frequentemente, não sabemos quais são as probabilidades anteriores dos modelos que são verdadeiros. Qual é a probabilidade anterior de que a hipótese de valor da linha de fecho seja verdadeira? Será igual à probabilidade anterior de que o desempenho efetivo de @nishikoripicks é uma medida válida da sua expetativa? 

Embora as dúvidas sobre as probabilidades anteriores permaneçam, a análise Bayesiana é sempre limitada. No entanto, a estatística Bayesiana é constituída por uma grande parte de dúvida e incerteza, e considera a “verdade” não como absoluta, mas antes como probabilística e sempre atualizável com novos dados. Quantos mais dados tivermos, mais nos aproximamos da “verdade”.

O que é que aprendemos sobre o Fator de Bayes e a competência nas apostas?

Este par de artigos revelou como o Fator de Bayes pode ser utilizado para testar hipóteses contraditórias que um apostador possa ter relativas ao seu desempenho, por exemplo, competência versus sorte, por que motivo está a acontecer e se reflete a expetativa. Proporciona outra ferramenta no arsenal do apostador para ajudar a identificar se é um apostador competente ou não.

Para a maioria dos desempenhos de apostas, a proporção de probabilidades será bastante adequada como um substituto de um Fator de Bayes computacionalmente mais complexo.

Recursos de apostas - Capacitar as suas apostas

Os Recursos de apostas da Pinnacle são um dos conjuntos mais abrangentes de conselhos de especialistas sobre apostas que se podem encontrar online. Dar resposta a todos os níveis de experiência - o nosso objetivo é simplesmente capacitar os apostadores a obterem mais conhecimentos.