close
mar 1, 2019
mar 1, 2019

Previsões de golfe: introdução ao modelo da Data Golf

Previsões de golfe: por onde começar?

A base de um modelo de previsões de golfe

O impacto do viés de sobrevivência no golfe

Previsões de golfe: introdução ao modelo da Data Golf

O golfe é um desporto incrivelmente difícil de prever. A Data Golf passou anos a aperfeiçoar um modelo de previsões de golfe que utiliza modelos estatísticos para ajudar a oferecer um reflexo mais exato do desempenho do jogador. Como é que pode utilizar estatísticas para realizar previsões de golfe? Continue a ler para saber a resposta.

Aparentemente, prever um desporto como o golfe parece ser complicado: regra geral, qualquer número entre 132 e 156 jogadores competem no campo de jogo (ou seja, campos de golfe) que pode ser radicalmente diferente de um torneio para outro. Se o objetivo for prever de forma eficaz os resultados de torneios de golfe, por onde devemos começar?

A resposta, na nossa opinião, reside no âmbito dos modelos estatísticos. Um modelo estatístico descreve o processo através do qual um conjunto de dados (por exemplo, pontuações num torneio de golfe) é gerado.

Neste artigo, descrevemos um modelo simples de pontuações de golfe e analisamos as suas principais implicações no que se refere à interpretação de dados de golfe.

Previsões de golfe: por onde começar?

O que importa nos torneios de golfe não é a pontuação pura de um jogador, mas a sua pontuação relativamente ao campo. Um 72 num torneio em que a média do campo é de 74 seria considerado um desempenho de 4 tacadas melhor que um 72 num campo com uma média de 70. Este ajuste é problemático se os jogadores a participarem nos dois campos do torneio não tiverem uma qualidade equiparada (este é um ponto que, por agora, iremos ignorar).

Com as pontuações ajustadas relativamente ao campo, que doravante iremos referir simplesmente como "pontuação", o próximo passo consiste em descrever como estas pontuações são geradas (ou seja, criar um modelo).

Em primeiro lugar, adotamos um pressuposto que simplifica bastante o problema: vamos supor que as pontuações de diferentes jogadores num dado campo são independentes, ou seja, o desempenho de um jogador nada nos diz acerca do desempenho de outro jogador.

Isto reduz o problema da previsão dos resultados de torneios de golfe a muitos problemas distintos e mais simples: nomeadamente, prever as pontuações de cada jogador individual.

Em seguida, vamos definir a capacidade de um jogador, num dado momento no tempo, como a sua pontuação média hipotética a partir de uma ronda de golfe infinitamente repetida. Por exemplo, a capacidade de Tiger Woods no Open Genesis é definida como a sua pontuação média no Riviera Country Club a partir de uma amostra de rondas infinitamente grande. Embora nunca seja possível saber o valor desta quantidade, é útil como ferramenta conceptual.

Todos os resultados de um torneio de golfe (por exemplo, ganhar, conseguir o apuramento) constituem uma função determinística das pontuações referentes ao campo de cada jogador.

As pontuações de um jogador individual mostram uma variação considerável ao longo do tempo. Esta variação pode ser entendida como uma composição de dois componentes: alterações na capacidade do jogador e um componente residual abrangente que inclui tudo o que afete as pontuações. O último pode ser rotulado como uma variação "aleatória" ou, dependendo dos seus conhecimentos filosóficos, uma variação nas pontuações devido a "fatores inobserváveis". 

Num dado dia, a pontuação de um jogador é definida como a soma da sua capacidade e do efeito destes fatores inobserváveis. Por exemplo, a pontuação de Tiger Woods de 65 na terceira ronda do Open Genesis foi seis tacadas melhor que a média do campo; descreveríamos esta situação no nosso modelo como a soma da capacidade de Woods (digamos, duas tacadas melhor que a média do campo) e um choque aleatório positivo de quatro tacadas.

Para concluirmos o modelo, invocaríamos um último pressuposto para simplificar: suponhamos que as capacidades de um jogador são fixas ao longo do tempo. Se a capacidade de um jogador for fixa, toda a variação nas pontuações que observamos ao longo do tempo só se deve ao que rotulámos como variação "aleatória".

A base de um modelo de previsões de golfe

Pode não ser óbvio, mas acabámos (embora informalmente) de especificar um modelo estatístico que descreve como os resultados dos torneios de golfe são gerados. Eis a decomposição do modelo em três afirmações:

  1. Todos os jogadores têm uma capacidade fixa.
  2. A pontuação referente ao campo de cada jogador num dado dia consiste numa combinação da sua capacidade e da variação aleatória (ou seja, os míticos "fatores inobservados").
  3. As pontuações referentes ao campo são independentes entre jogadores.

Todos os resultados de um torneio de golfe (por exemplo, ganhar, conseguir o apuramento) constituem uma função determinística das pontuações referentes ao campo de cada jogador; assim, este modelo fornece-nos uma descrição de qualquer resultado de torneio de golfe que desejarmos.

Esta formação de modelo básico serve de alicerce útil para analisarmos as pontuações de golfe; o resto deste artigo explora algumas das suas implicações práticas.

O tamanho da amostra é sempre importante

O primeiro passo lógico para colocarmos este modelo em prática consiste numa tentativa de prever as capacidades dos jogadores. Suponhamos que, para um jogador individual, temos uma amostra de pontuações histórica. Se esta amostra for suficientemente grande, o seu valor médio seria igual à capacidade do jogador. Que tamanho de amostra pode ser considerado como "suficientemente grande"?

Empiricamente, é normal que as pontuações de um jogador tenham um desvio padrão algures por volta de 2,75 tacadas. Partindo do princípio de que este valor é distribuído normalmente, 68% das pontuações estarão dentro das 2,75 tacadas do valor médio e 95% dentro das 5,5 tacadas. Utilizando uma teoria estatística básica, podemos ter alguma confiança de que a média de uma amostra de 100 rondas se situa dentro das 0,275 tacadas da capacidade do jogador.

A questão essencial consiste em reconhecer que quanto menos dimensões tiver que permitam a variação da capacidade do jogador, mais dados terá para prever as quantidades relevantes.

A título contextual, consideremos o facto de que as médias de pontuações ao longo da época para os jogadores classificados na 50.ª e 100.ª posições a nível mundial são separadas por menos de meia tacada. Isto leva-nos à principal implicação prática deste modelo: para retirar inferências úteis sobre as capacidades do jogador, tem de se basear em grandes amostras de dados históricos.

Sob este modelo, as diferenças nas pontuações observadas entre os jogadores numa dada semana, mês ou até ano devem-se principalmente à variação aleatória. Para distinguir entre as capacidades de dois jogadores com 0,5 tacadas de diferença entre si, serão necessárias 100 ou mais rondas para conseguir separar as capacidades com confiança. 

Crucialmente, esta implicação só é possível devido aos pressupostos do nosso modelo. E talvez este modelo esteja errado. Talvez a capacidade de um jogador não seja fixa ao longo do tempo e, utilizando um exemplo comum, talvez também não seja fixa em diferentes campos. Assim, o que rotulámos de uma forma bastante preguiçosa como "fatores inobservados" talvez não sejam de facto inobserváveis!

Capacidade fixa ou capacidade específica em cada campo?

Com as capacidades fixas, pressupõe-se que as diferenças no desempenho de um jogador em vários campos devem-se à variação aleatória; mas num modelo com capacidades específicas em cada campo, esta lacuna de desempenho reflete, pelo menos parcialmente, as diferenças na capacidade. 

Não se trata de uma mera diferença semântica. O ponto até ao qual acredita que as diferenças no desempenho do jogador em vários campos se devem a diferenças genuínas em termos de capacidades, em oposição às flutuações aleatórias, afeta em grande medida a forma como poderá prever a capacidade deles (e, em última análise, a forma como cria as suas previsões).

Quanto maior for o papel da variação aleatória, maior será o tamanho da amostra necessária para prever com exatidão a capacidade de um jogador. Se as capacidades forem fixas, toda a variação nas pontuações de um jogador é aleatória e, consequentemente, é necessária uma amostra de pontuações muito grande para conseguir apurar uma média dessa variação.

No entanto, num mundo em que as capacidades específicas dos campos são responsáveis por grande parte da variação que observamos, é possível que sejam necessárias apenas algumas rondas de dados no campo relevante para obtermos previsões razoáveis da capacidade específica de um jogador num dado campo. 

Que modelo está mais próximo da realidade? Sem analisar os dados formalmente, existe um caso de "prima facie" a defender de que as pontuações no golfe são geradas por um processo mais próximo do modelo de "capacidade fixa" do que de um modelo de "capacidade de variação frequente". 

Mantendo o exemplo da capacidade específica em cada campo, repare que existe uma variação apenas ligeiramente inferior nas pontuações de um jogador num torneio (ou seja, de ronda para ronda disputada no mesmo campo) do que existe no geral (ou seja, entre rondas disputadas em todos os campos).

Esta é uma prova transparente de que os fatores além da dicotomia jogador-campo ainda desempenham um papel dominante na determinação das pontuações dos jogadores; e, tal como antes, a implicação é de que serão necessárias grandes amostras para desvendar a capacidade específica em cada campo.

O impacto do viés de sobrevivência no golfe

Em geral, é muito difícil explicar (no sentido estatístico) a enorme variação nas pontuações dos jogadores com fatores observáveis (e "observável" deve ser entendido como "observável antes do início do torneio"). 

Por outro lado, será que o modelo de "capacidade fixa" é consistente com alguns dos inacreditáveis padrões que vemos nos dados? Por exemplo, Tony Finau falhou recentemente o seu quarto apuramento consecutivo no Open de Phoenix do PGA Tour. Será esta a derradeira prova de que Finau tem uma capacidade menor no TPC Scottsdale do que em qualquer outro lugar? Possivelmente, mas padrões como este continuariam a surgir mesmo que o modelo de "capacidade fixa" fosse verdadeiro.

A lógica é semelhante ao viés de sobrevivência entre os especialistas de apostas. Muito embora exista 1 em 500 hipóteses de um jogador de golfe do calibre de Finau falhar quatro apuramentos consecutivos, se considerarmos todas as combinações possíveis de campos de golfe e jogadores (que estão na casa dos milhares), poderíamos esperar a ocorrência de 1 em 500 eventos com alguma frequência no decorrer de várias épocas do PGA Tour. Concentrarmo-nos num ou dois exemplos e ignorar os restantes não pintaria um quadro fiel da dicotomia campo-jogador.

Desenvolvimento deste modelo simples de previsões de golfe

O modelo simples descrito neste artigo é útil para compreendermos as diferentes formas de analisar as pontuações de golfe. Ao que parece, filosofias muito diferentes, como os modelos de capacidade fixa e de capacidade específica em cada campo, podem ser analisados através de uma estrutura similar, permitindo destrinçar as respetivas vantagens e desvantagens.

Neste caso, a questão essencial consiste em reconhecer que quanto menos dimensões tiver que permitam a variação da capacidade do jogador, mais dados terá para prever as quantidades relevantes. Por exemplo, para prevermos a capacidade de um jogador individual em cada campo disputado no PGA Tour, na maior parte dos casos, só teríamos 5-10 rondas disponíveis para basearmos a nossa previsão. 

Por outro lado, para prevermos a capacidade fixa para cada jogador, todos os seus dados poderiam ser utilizados para formar a previsão. Nenhuma das filosofias é inerentemente melhor que a outra, e o modelo de capacidade fixa terá um melhor resultado quanto maior for o papel desempenhado pela variação aleatória na determinação das pontuações de golfe. 

A nossa abordagem para compreendermos as pontuações de golfe está mais alinhada com o modelo de capacidade fixa. Embora este modelo esteja claramente "errado", o seu poder para racionalizar (e, em última instância, prever) padrões nas pontuações de golfe é impressionante.

Nos próximos artigos, iremos fornecer provas que fundamentam esta premissa, mas iremos também explorar as muitas formas de melhorar este modelo. Se aceitarmos o modelo de capacidade fixa como uma aproximação razoável à realidade, a sua principal lição prática é de que é incrivelmente fácil (adotando a expressão) ser "enganado pelo aleatório" ao analisar dados de golfe.  

Recursos de apostas - Capacitar as suas apostas

Os Recursos de apostas da Pinnacle são um dos conjuntos mais abrangentes de conselhos de especialistas sobre apostas que se podem encontrar online. Dar resposta a todos os níveis de experiência - o nosso objetivo é simplesmente capacitar os apostadores a obterem mais conhecimentos.