A estatística de expectativa de gols é uma ferramenta de previsão popular. Os apostadores podem usar a expectativa de gols para determinar um resultado com precisão? O analista de apostas Joseph Buchdahl processa dados e determina se a expectativa de gols pode prever resultados de futebol.
As apostas esportivas, pelo menos para aqueles que aspiram a tratá-las como mais do que uma atividade recreacional, estão familiarizadas há algum tempo com o conceito de expectativa e, especificamente, com a ideia de valor esperado.
Apostas podem ser ganhadoras e perdedoras, mas muito do que acontece é meramente uma consequência do acaso.
No entanto, saber o valor esperado de algo, a longo prazo, permite ao apostador ter uma estimativa de quanto pode esperar ganhar ao longo de uma amostra maior de apostas. "Expectativa" é apenas outra palavra para "média aritmética" ou "média".
Mais recentemente, o conceito de expectativa se fez presente no futebol por meio da noção de expectativa de gols ou xG. A expectativa de gols é usada como uma métrica de desempenho para avaliar um time de futebol ou o desempenho de um jogador através da atribuição de uma probabilidade à oportunidade de marcação que pode resultar em um gol.
Esse cálculo é feito por meio do uso do histórico de dados para oportunidades equivalentes e da taxa de conversão de gol. Portanto, a xG para uma oportunidade de marcação estará entre 1 e 0.
Além disso, somar a xG em um jogo com várias oportunidades de gols resultará na xG para o próprio jogo ou, mais comumente, em uma xG para cada time em um jogo.
A xG fornece uma representação mais verdadeira da qualidade de jogo das equipes em um jogo.
Em teoria, a xG fornece uma representação mais verdadeira da qualidade de jogo das equipes em um jogo e da superioridade de uma equipe em relação ao adversário do que os dados dos gols em si.
Os gols são marcados com um nível razoável de acaso (o que os especialistas chamam de "ruído") e o uso de um placar real para prever o que uma equipe poderá fazer no seu próximo jogo pode ser menos confiável do que usar a xG dessa equipe.
De certa forma, os gols são como vitórias e derrotas em uma aposta, enquanto a expectativa de gols é como o valor esperado. Se for esse o caso, podemos usar a xG ao invés de gols para prever o resultado de partidas de futebol para ganho em apostas?
Gols x Expectativa de gols
David Sumpter, matemático e autor de Soccermatics: Mathematical Adventures in the Beautiful Game, deu um direcionamento sobre a utilidade relativa de gols versus xG quando se tenta prever o resultado de jogos futuros. Sumpter ilustra a dificuldade de encontrar um sinal de previsão a partir dos dados de gols de forma sucinta.
“De um ponto de vista estatístico, o resultado de uma partida de futebol é quase tanto ruído quanto é sinal. Uma explicação matemática para isso pode ser encontrada diretamente na distribuição de Poisson. No futebol, os gols seguem a distribuição de Poisson e as equipes marcam, em média, 1,4 gols. O desvio e a média são iguais na distribuição de Poisson. Sendo assim, o desvio padrão é a raiz quadrada de 1,4, ou seja, 1,18. Consequentemente, o ruído (1,18) é apenas ligeiramente menor do que o sinal (1,4).”
A xG, ao contrário, é uma medida de probabilidades criadas e, assim, proporciona uma medida melhor da qualidade de uma equipe durante um único jogo em comparação ao número de gols.
Normalmente, ela apresenta menor ruído e mais sinal. Tanto para gols quanto para xG, a quantidade de ruído nos resultados das partidas diminui à medida que o número de jogos sendo analisados aumenta. No entanto, o índice de diminuição é inicialmente mais acentuado para a xG do que para os gols.
Sumpter usa essa informação para recomendar qual o tipo de dados que deve ser nosso foco quando tentamos fazer previsões para jogos futuros. Para uma ou duas partidas, é o próprio relatório da partida que fornece as informações mais úteis.
Por outro lado, para amostras superiores a 15 partidas, ou para a melhor parte da metade de uma temporada, os dados de gols serão tão confiáveis quanto as xG.
O ruído ainda será um pouco maior, mas a diferença é menor. Além disso, os gols representam a realidade – o que aconteceu – enquanto a xG é um modelo probabilístico de chances de marcação. Se não for precisa, poderá inclusive ser menos confiável do que os dados de gols.
Entre esses extremos está uma área empolgante da perspectiva de utilização da xG como uma ferramente de previsão. Sumpter argumenta que o relatório da xG será mais útil entre três e seis jogos, enquanto que para sete a 15 partidas será, possivelmente, mais apropriada a comparação entre gols e xG.
Para este artigo, criei um modelo de previsão da xG que usa as seis partidas mais recentes jogadas por uma equipe para verificar se ele poderia ser usado para gerar ganho de aposta.
Modelo Dixon-Coles
A abordagem mais bem documentada para previsão de partidas de futebol foi publicada por Mark Dixon e Stuart Coles (da Universidade de Lancaster) no Journal of Applied Statistics, em 1997.
Conhecido, sem surpresas, como o modelo Dixon-Coles, ele desenvolve o conceito de força de ataque e força de defesa por meio da comparação entre marcar e sofrer gols de uma equipe individual para as médias da liga ao longo de um número específico de partidas anteriores.
Em seguida, esses dados são usados para estimar o número esperado de gols que cada equipe marcará em sua próxima partida.
Por fim, a distribuição de Poisson é usada para calcular as probabilidades dos registros de gols individuais, em que o número esperado de gols é a média da distribuição. A Pinnacle tem um artigo anterior descrevendo a metodologia.
Adaptei aqui o modelo para usar a xG ao invés de gols, calculando a força de ataque e a força de defesa usando as seis partidas mais recentes jogadas dentro ou fora de casa. Meu conjunto de dados incluiu partidas jogadas na primeira divisão da Inglaterra, França, Alemanha, Itália e Espanha durante as temporadas de 2015/16 e 2019/20.
As probabilidades previstas para resultados em casa, empates e fora de casa foram convertidas em probabilidades implícitas de apostas justas e depois comparadas com os preços de fechamento da Pinnacle.
Onde os preços de fechamento foram mais extensos, isso representou o valor teórico do modelo de previsão. Depois, as apostas de valor foram comparadas aos resultados.
O gráfico abaixo mostra a série cronológica de lucro das 7.795 oportunidades de apostas de valor identificadas pelo modelo, de um total possível de 18.006. O lucro das apostas fixas em relação ao volume de apostas foi de -5,0%. Isso se compara a uma perda de -4,3%, se cada um dos 18.006 resultados tivesse sido apostado cegamente como uma aposta de uma única unidade. Dado que o valor médio esperado para esta amostra era 38,9%, dizer que isso é um insucesso seria um enorme eufemismo.
Invalidez potencial do modelo
Talvez a primeira pista para o fracasso deste modelo está na figura do próprio valor médio esperado.
Com probabilidades médias de 4,69, um número de quase 40% para o valor médio esperado das apostas que representam mais de um terço de todas as oportunidades possíveis sugeririam fortemente uma variância enorme nas probabilidades implícitas para apostas justas quando comparadas com os preços reais da Pinnacle.
Tal ponto é confirmado pelo gráfico de correlação entre os valores de xG previstos pelo modelo e os valores de xG reais registrados para a estimativa da partida.
Há muito ruído. O modelo de xG criado não faz um trabalho particularmente bom na previsão precisa da xG de uma partida real de uma equipe.
A fonte do fracasso do modelo pode ser mais difícil de corrigir, uma vez que há pelo menos quatro problemas em potencial no modelo. Primeiramente, usar o modelo Dixon-Coles para prever resultados de futebol pode ser inerentemente falho. A distribuição de Poisson, em seu cerne, assume que a marcação de gols é independente; ou seja, um gol não tem efeito sobre a marcação de outro.
No entanto, isso ignora a influência da psicologia de equipe e jogadores. Equipes que ficam pra trás podem se tornar mais motivadas do que estavam anteriormente para restabelecer o equilíbrio, enquanto que equipes em empate podem se tornar mais motivadas para pressionar e buscar o resultado positivo.
Se for esse o caso, a ideia de que os gols ocorrem de forma aleatória deve certamente ser questionada.
Os próprios Dixon e Coles relataram que o modelo de previsão original deles relatava abaixo do esperado para resultados com baixa marcação (0-0, 1-0, 0-1 e 1-1). Para confirmar tal achado, reordenei separadamente minha xG de modelo previsto e os dados reais de xG da partida do mais baixo para o mais alto e organizei a informação como uma correlação artificial, como pode ser visto abaixo (linha sólida).
Fica claro que há uma quantidade menor de resultados reais de xG baixa do que a previsão dada por meu modelo, enquanto há mais resultados de xG alta do que deveria (linha pontilhada).
O que Dixon e Coles encontraram para gols também parece ser aplicável à xG, um achado que não é uma surpresa completa, dado que os gols de uma partida e a xG de uma partida apresentam uma correlação em amostras de dados maiores.
Uma segunda fonte de erro possível será o próprio modelo de xG. Para a minha amostra de dados, a xG total foi 97,8% dos gols reais marcados nas partidas. Enquanto isso pode parecer uma boa correspondência, é difícil saber se essa diferença será suficiente para afetar a validade de um modelo de previsão de xG.
Um terceira fonte de erro pode ser a minha escolha do número de partidas recentes usadas para calcular a força de ataque e a força de defesa do modelo Dixon-Coles.
Pelas razões que delineei anteriormente neste artigo, escolhi seis partidas. Talvez um número diferente, maior ou menor, pudesse ter funcionado melhor.
Uma mudança seria relativamente fácil de implementar, apesar de que seria preciso recomeçar a análise do zero e isso não é algo que farei aqui.
Além disso, todas as seis partidas receberam a mesma ponderação. Dixon e Coles reconheceram que partidas mais recentes deveriam, talvez, receber um peso maior quando se faz o cálculo das forças médias e introduziram tais ponderações em versões posteriores de seu modelo.
Mais uma vez, é uma funcionalidade que eu mesmo poderia implementar, mas, considerando a natureza demorada do processo, eu optei por não dar tal passo.
Há um problema final, e possivelmente mais existencial, no meu modelo em tentar ter lucro com a previsão de partidas de futebol.
Colocando de lado todas as outras fontes de erro, mesmo um bom modelo de xG (um muito melhor do que o meu, obviamente) pode não ser capaz de fornecer um lucro não-aleatório porque não é tão bom quanto o modelo utilizado pelo agente de apostas para compilar suas probabilidades.
Dado que o modelo Dixon-Coles é um dos bem documentados e que a xG é atualmente uma métrica amplamente usada, é possível que toda a informação que uma abordagem de previsão assim traz já esteja incorporada nas probabilidades do agente de apostas.
Um concurso de habilidades relativas
Apostas esportivas são, em grande medida, como os esportes competitivos em que se baseiam. Envolve um concurso de habilidades relativas entre dois ou mais lados, competindo para saber quem é melhor em prever o futuro.
Quanto melhor o analista, mais confiável e válida será a sua avaliação das probabilidades reais de resultados (e, consequentemente, suas probabilidades para aposta). Erros são punidos com penalidades financeiras.
A Pinnacle, seguramente o agente de apostas com as melhores análises de dados do mercado, terá modelos de previsão extremamente confiáveis, e muito melhores do que o meu. Sabemos que a Pinnacle tem clientes que têm lucros não-aleatórios, mas já discutimos o quão raro eles são.
Se a Pinnacle fosse o Aston Villa dos modelos de previsão, esses clientes astutos seriam o Liverpool e o Manchester City.
É claro que você pode ter um bom modelo, talvez um Reading ou um Derby, um que seja bom o suficiente para fazer boas previsões, mas não consistentemente bom o bastante para superar os melhores modelos. O meu modelo aqui possivelmente nem se classificaria para a Isthmian League.A xG pode também ser um recurso útil para a construção de um modelo de previsão.
Com relação à possibilidade da xG ser utilizada efetivamente para fazer dinheiro no mercado de apostas de futebol, a questão é a seguinte: As probabilidades fornecidas por um modelo de previsão são um reflexo da qualidade da informação que foi inserida nele.
A xG pode realmente fornecer um recurso de dados útil para construir um modelo de previsão, mas se a Pinnacle já está incorporando tal informação em seu próprio modelo, assim como outras informações úteis que não possuo, o meu modelo de previsão não vai superar o dela.
Qualquer informação que os meus dados de xG me dão já está incorporada nas suas probabilidades. É Canvey Island F.C. versus Aston Villa.
Se a Pinnacle (e possivelmente outros agentes de apostas) já está utilizando a xG em seus modelos de previsões e configuração de probabilidades, o que é muito provável dado o tempo em que os dados estão amplamente disponíveis, é questionável se meu uso de tais dados poderá melhorar o que ela já está fazendo.
Então, os dados de xG podem possibilitar o meu lucro em apostas de futebol? Assim como em qualquer outra forma de análise de dados com foco em apostas, a resposta é que vai depender de como são usados. E como você os usa terá de ser melhor do que a forma atual usada pelos agentes de apostas. Você pode saber mais sobre o trabalho excelente do Joe via Twitter aqui, ou na nossa página de Recursos de apostas aqui.