mar 1, 2019
mar 1, 2019

Predicciones de golf: Una introducción al modelo de Data Golf

Predicciones de Golf: ¿Por dónde empezar?

La base de un modelo de predicción de golf

El impacto del sesgo de supervivencia

Predicciones de golf: Una introducción al modelo de Data Golf

El golf es un deporte notablemente difícil de predecir. Data Golf ha dedicado años al perfeccionamiento de un modelo de predicciones de golf que usa modelos estadísticos para ofrecer una imagen más del desempeño del jugador. ¿Cómo puede usar las estadísticas para realizar predicciones de golf? Lea a continuación para descubrirlo.

A simple vista, predecir un deporte como el golf parece complicado: generalmente, compiten entre 132 y 156 jugadores en los campos de juego (es decir, las canchas de golf), y esto puede cambiar drásticamente de un torneo al siguiente. Si el objetivo es predecir de manera eficaz los resultados de torneos de golf, ¿por dónde deberíamos comenzar?

En nuestra opinión, la respuesta radica en el dominio de los modelos estadísticos. Un modelo estadístico describe el proceso por el cual se genera un conjunto de datos (por ej., puntajes en un torneo de golf).

En este artículo, describimos un modelo simple de puntajes de golf y analizamos sus principales implicaciones a la hora de interpretar datos de golf.

Predicciones de Golf: ¿Por dónde empezar?

Lo que importa en los torneos de golf no es el puntaje bruto de un jugador, sino su puntaje relativo al campo. Un puntaje de 72 en un torneo en el que el promedio del campo es 74 se consideraría como un desempeño 4 golpes mejor que 72 cuando el promedio del campo es de 70. Este ajuste es problemático si la calidad de los golfistas de los dos torneos no es la misma (por el momento, ignoraremos este punto).

Con los puntajes ajustados en relación al campo, a los que denominaremos simplemente como "puntaje" a partir de aquí, el próximo paso es describir cómo se generan estos puntajes (es decir, construir un modelo).

En primer lugar, realizamos una suposición que simplifica mucho el problema: supongamos que los puntajes de diferentes golfistas en una cancha dada son independientes; es decir, el desempeño de un jugador no nos dice nada sobre el desempeño de otro.

Esto reduce el problema de predecir resultados de torneos de golf en muchos problemas separados y más sencillos: a saber, predecir los puntajes de cada golfista individual.

A continuación, definiremos la habilidad de un golfista, en cualquier momento determinado, de lograr su puntaje promedio hipotético de una ronda de golf repetida infinitas veces. Por ejemplo, la habilidad de Tiger Woods en el Abierto de Genesis se define como su puntaje promedio en el Riviera Country Club de una muestra enorme de rondas. Si bien no es posible saber el valor de esta cantidad, es útil como herramienta conceptual.

Todos los resultados de un torneo de golf (es decir, ganar, clasificar) son una función determinística de los puntajes relativos al campo de cada jugador.

Los puntajes de un jugador individual muestran variaciones considerables a través del tiempo. Se puede considerar que esta variación consta de dos componentes: esto se debe a cambios en la habilidad del golfistas y un componente residual general, incluido todo lo que afecta los puntajes. La posterior se podría denominar como variación "aleatoria" o, según sus inclinaciones filosóficas, la variación en puntajes debido a "factores no observables". 

En un día particular, el puntaje de un jugador se define como la suma de su habilidad y el efecto de estos factores no observables. Por ejemplo, el puntaje de Tiger Woods de 65 en la tercera ronda del Abierto de Genesis fue mejor por seis golpes que el promedio del campo; Esto podría describirse en nuestro modelo como la suma de la habilidad de Woods (mejor por dos golpes que el promedio de campo) y una perturbación aleatoria positiva de cuatro golpes.

Para completar el modelo, invocamos una suposición de simplificación final: supongamos que las habilidades de los jugadores se mantienen iguales a través del tiempo. Si la habilidad del jugador se mantiene igual, se deduce que toda la variación en puntajes que observamos a través del tiempo se debe a lo que denominamos variación "aleatoria".

La base de un modelo de predicción de golf

Puede que no sea obvio, pero acabamos de especificar por completo (aunque de manera informal) un modelo estadístico que describe cómo se generan los resultados de los torneos de golf. El modelo se puede describir en tres declaraciones:

  1. Cada golfista tiene una habilidad fija.
  2. El puntaje relativo al campo de cada golfista en un día en particular es una combinación de la habilidad y una variación aleatoria (es decir, los míticos "factores no observados").
  3. Los puntajes relativos al campo son independientes entre los golfistas.

Todos los resultados de un torneo de golf (es decir, ganar, clasificar) son una función determinística de los puntajes relativos al campo de cada jugador; por lo tanto, este modelo nos ofrece una descripción de cualquier resultado de torneos de golf que deseemos.

Esta configuración de modelo básica sirve como base útil para pensar en puntajes de golf; el resto de este artículo explora algunas de sus implicaciones prácticas.

Siempre será importante el tamaño de la muestra

El primer paso lógico al utilizar este modelo es un intento de calcular las habilidades de los golfistas. Supongamos que, para un golfista individual, tenemos una muestra histórica de puntajes. Si esta muestra es lo suficientemente grande, su media sería igual a la habilidad del golfista. ¿Qué tamaño de muestra se puede considerar "lo suficientemente grande"?

Empíricamente, los puntajes de un golfista suelen tener una desviación estándar de aproximadamente 2,75 golpes. Suponiendo que se distribuyen en forma normal, el 68% de los puntajes se encontrará dentro de los 2,75 puntajes de la media y el 95% dentro de los 5,5 golpes. Mediante una teoría estadística básica, podemos afirmar, hasta cierto punto, que el promedio de una muestra de 100 rondas se encuentra dentro de los 0,275 golpes de la capacidad del golfista.

La compensación clave que se debe reconocer es que, cuantas menos dimensiones haya en relación a las que usted permite que las habilidades de los golfistas varíen, más datos tendrá para calcular las cantidades relevantes.

Para obtener contexto, considere que los promedios de puntajes de toda la temporada de golfistas de todo el mundo clasificados entre los 50 y 100 mejores está separada por menos de medio golpe. Esto nos lleva a la implicación práctica principal de este modelo: para obtener inferencias útiles sobre las habilidades de los golfistas, dependemos de grandes muestras de datos históricos.

En este modelo, las diferencias en puntajes observadas entre golfistas en cualquier semana, mes o incluso año dado, se deben principalmente a una variación aleatoria. Para diferenciar entre las habilidades de dos golfistas a 0,5 golpes el uno del otro, se necesitarán 100 o más rondas para separarlos con seguridad. 

De manera crucial, esta implicación solo es posible mediante las suposiciones de nuestro modelo. Y quizá este modelo se haya equivocado. Quizá, la habilidad de un golfista no se mantiene igual a través del tiempo, y, para tomar un ejemplo comúnmente usado, puede que tampoco sea igual en diferentes canchas de golf. Por lo tanto, lo que denominamos vagamente como "factores no observados", podrían de hecho ser observables.

¿Habilidad fija o habilidad específica según la cancha?

Con habilidades fijas, se supone que las diferencias en el desempeño de un golfista entre canchas es el resultado de una variación aleatoria; pero, en un modelo con habilidades específicas según la cancha, esta brecha de desempeño refleja, al menos parcialmente, diferencias en habilidad. 

Esta no es una diferencia meramente semántica. El grado con el que considera que las diferencias en el desempeño de un golfista en base a las canchas se deben a diferencias genuinas en habilidad, frente a fluctuaciones aleatorias, afecta en gran medida la forma en que calculará esta habilidad (y en última instancia, la manera en que forma sus predicciones).

Cuanto mayor sea el papel de la variación aleatoria, mayor será el tamaño de la muestra requerido para calcular en forma precisa la habilidad de un golfista. Si las habilidades se mantienen iguales, toda la variación de los puntajes de un golfista es aleatoria y, consecuentemente, se requiere una muestra muy extensa de puntajes para establecer una media de esa variación.

No obstante, en un mundo en el que las habilidades específicas según la cancha son responsables de gran parte de la variación que observamos, es posible que solo se requieran algunas rondas de datos en la cancha en cuestión para obtener estimaciones razonables de la habilidad de un jugador en esa cancha específica. 

¿Qué modelo se asemeja más a la realidad? Sin analizar los datos formalmente, a primera vista, se puede afirmar que los puntajes de golf se generan por un proceso que se asemeja más al modelo de "habilidad fija" que a un modelo de "habilidad frecuentemente cambiante". 

Continuando con el ejemplo de habilidad según la cancha, observe que solo existe una variación apenas menor en los puntajes de un golfista dentro de un torneo (es decir, de ronda en ronda disputada en la misma cancha), que los obtenidos a nivel general (es decir, en rondas disputadas en todas las canchas).

Esta es una evidencia clara de que los factores más allá de la relación entre el jugador y la cancha aún juegan un papel dominante en determinar los puntajes de un golfista; y, como especificamos antes, la implicación es que se necesitarán tamaños grandes de muestra para determinar la habilidad en relación a la cancha.

El impacto del sesgo de supervivencia

En general, es muy difícil de explicar (en el sentido estadístico) la enorme variación en los puntajes de los golfistas con factores observables (observable se debe interpretar como "observable antes del comienzo del torneo"). 

Por otro lado, ¿el modelo de "habilidad fija" es consistente con algunos de los patrones desconcertantes que vemos en los datos? Por ejemplo, recientemente, Tony Finau perdió su cuarta oportunidad consecutiva de clasificar en el Abierto de Phoenix del PGA Tour. ¿Es esta evidencia definitiva de que Finau tiene una habilidad menor en TPC Scottsdale que en cualquier otra cancha? Posiblemente, pero aún aparecerían patrones como estos si el modelo de "habilidad fija" fuera cierto.

La lógica es similar al sesgo de supervivencia entre pronosticadores de apuestas. Aunque probablemente haya una probabilidad de 1 en 500 de que un golfista del calibre de Finau falle cuatro clasificaciones consecutivas, si considera todas las posibles combinaciones de canchas de golf y jugadores (y son miles), deberíamos esperar que 1 en 500 eventos ocurra con frecuencia durante el trascurso de varias temporadas del PGA Tour. Al centrarse en uno o dos ejemplos e ignorar el resto, no se determinará con precisión la relación entre una cancha y un jugador.

Desarrollo de este modelo simple de predicciones de golf 

El modelo simple dispuesto en este artículo es útil para comprender las diferentes formas en que se pueden analizar los puntajes de golf. Filosofías aparentemente muy diferentes, como los modelos de habilidad fija y específica según la cancha, pueden analizarse ambas mediante un marco similar, lo que permite que queden claros los obstáculos y beneficios.

En este caso, la compensación clave que se debe reconocer es que, cuantas menos dimensiones haya en relación a las que usted permite que las habilidades de los golfistas varíen, más datos tendrá para calcular las cantidades relevantes. Por ejemplo, en la mayoría de los casos, para calcular la habilidad única de un golfista en cada cancha en la que jugó en el PGA Tour, solo se dispondrá de 5 a 10 rondas en las que basarse. 

En cambio, para calcular una única habilidad fija para cada golfista, se pueden usar todos sus datos para realizar el cálculo. Ninguna de las dos filosofías es inherentemente mejor que la otra, y el modelo de habilidad fija actuará mejor cuanto mayor sea el papel jugado por variación aleatoria para determinar los puntajes de golf. 

Nuestro enfoque para comprender los puntajes de golf se alinea más estrechamente con el modelo de habilidad fija. Si bien este modelo es evidentemente "erróneo", su capacidad de racionalizar (y en última instancia, predecir) patrones en puntajes de golf es impresionante.

En artículos futuros, presentaremos evidencia que respalda este reclamo, pero también exploraremos muchas formas en que se puede mejorar este modelo. Si acepta el modelo de habilidad fija como una aproximación razonable a la realidad, su principal lección práctica es que es increíblemente fácil "engañarse por la aleatoriedad", para citar una frase, al analizar datos de golf.  

Recursos para apostar: facultando sus apuestas

La sección Recursos para apostar de Pinnacle es una de las recopilaciones más exhaustivas de consejos expertos sobre apuestas que encontrará en Internet. Dirigida a todos los niveles de experiencia, nuestro objetivo consiste simplemente en facultar a los apostantes para que estén mejor informados.