мар 1, 2019
мар 1, 2019

Прогнозирование результатов в гольфе: вводная информация о модели Data Golf

Прогнозирование результатов в гольфе: с чего стоит начать?

Основа построения модели прогнозирования результатов в гольфе

Влияние явления тренда выживания в гольфе

Прогнозирование результатов в гольфе: вводная информация о модели Data Golf

Общеизвестно, что гольф относится к видам спорта, результаты которых сложно спрогнозировать. Специалисты Data Golf посвятили годы оттачиванию модели прогнозирования результатов в гольфе, основанной на использовании метода статистического моделирования, который позволяет более точно оценить эффективность выступлений игроков. Как использовать статистические данные для прогнозирования результатов в гольфе? Читайте дальше и узнайте ответы на свои вопросы.

На первый взгляд прогнозировать результаты в таком виде спорта, как гольф, кажется сложным: как правило, на игровых полях (то есть на полях для гольфа), которые могут существенно отличаться друг от друга в зависимости от того или иного турнира, соревнуются от 132 до 156 игроков. Если целью является эффективное прогнозирование результатов турниров по гольфу, с чего же следует начать?

Ответ, по нашему мнению, стоит искать в области статистического моделирования. Статистическая модель являет собой описание процесса, выполняемого с целью генерирования набора данных (например, о результатах игрока на турнире по гольфу).

В этой статье речь пойдет о простой модели прогнозирования результатов в гольфе и анализе значимости основных выводов, сделанных в процессе ее применения, для интерпретации данных о гольфе.

Прогнозирование результатов в гольфе: с чего стоит начать?

В турнирах по гольфу важен не сам результат игрока, а эффективность его выступлений на том или ином поле. Считается, что показатель в 72 удара в турнире, где среднее количество ударов на поле составляет 74, на 4 пункта лучше показателя в 72 удара на поле, где среднее количество ударов равно 70. Применение такой корректировки является проблематичным, особенно если два игрока, соревнующиеся на полях турнира, не равны по силам (этот момент мы пока проигнорируем).

Следующий шаг после того, как результаты были скорректированы с учетом фактора поля (далее мы будем называть их просто «результаты»), предполагает описание процесса генерирования данных о результатах (то есть речь идет о построении модели).

Мы начнем с формулировки предположения, которое значительно упростит нашу задачу: предположим, что результаты разных игроков в гольф на конкретно взятом поле не зависят друг от друга, то есть на основании данных о результативности одного игрока в гольф нельзя судить о результативности другого.

Такой подход позволит разбить задачу по прогнозированию результатов турниров по гольфу на несколько более простых отдельных задач, заключающихся в прогнозировании результата каждого отдельного гольфиста.

Далее давайте определим уровень квалификации игрока в гольф, благодаря которому он имеет возможность в каждый конкретный момент времени демонстрировать средний гипотетический результат в рамках бесконечно повторяемого раунда игры в гольф. Например, уровень квалификации Тайгера Вудса на турнире Genesis Open определяется как средний результат, продемонстрированный им на полях Riviera Country Club в рамках бесконечно большой выборки раундов. Хотя значение этой величины узнать невозможно, она может использоваться в качестве концептуального инструмента.

Все итоги турнира по гольфу (например, выигрыш, прохождение отборочного тура) представляют собой детерминированные функции величины результата каждого игрока в гольф на том или ином конкретном поле.

С ходом времени в результатах отдельных игроков в гольф отмечаются значительные вариации. Формирование этих вариаций зависит от двух факторов: фактора изменения уровня квалификации гольфиста и остаточного фактора, включающего все остальные аспекты, которые влияют на результаты. Последний можно отнести к случайным вариациям или, в зависимости от ваших философских убеждений, вариациям, вызванным влиянием на результативность ненаблюдаемых переменных. 

В конкретно взятый день результат игрока в гольф может зависеть от суммарного влияния фактора его квалификации и ненаблюдаемых переменных. Например, результат Тайгера Вудса в 65 ударов в третьем раунде Genesis Open был на шесть ударов лучше среднего показателя для этого конкретного поля; в нашей модели такой результат можно представить в виде суммы влияния фактора квалификации Вудса (скажем, его показатель результативности на два пункта выше среднего значения по полю) и положительного непредсказуемого исхода четырех ударов.

На завершающем этапе построения модели мы приведем последнее упрощающее предположение, суть которого в том, что с течением времени уровень квалификации игроков в гольф фиксируется. Если игрок в гольф обладает фиксированным уровнем квалификации, то из этого следует, что все вариации его результатов, которые мы наблюдаем с течением времени, можно считать случайными.

Основа построения модели прогнозирования результатов в гольфе

Это может быть неочевидно, но мы только что полностью (хотя и произвольно) задали параметры для статистической модели, описывающей процесс генерирования данных о результатах турниров по гольфу. Вот три утверждения, которые составляют основу этой модели.

  1. Каждый игрок в гольф обладает фиксированным уровнем квалификации.
  2. Результат каждого игрока в гольф, продемонстрированный им на конкретно взятом поле в определенный день, является суммарным результатом влияния фактора его квалификации и случайных вариаций (то есть мифических «ненаблюдаемых факторов»).
  3. Результаты игроков в гольф, продемонстрированные ими на том или ином конкретном поле, не зависят друг от друга.

Все итоги турнира по гольфу (например, выигрыш, прохождение отборочного тура) представляют собой детерминированные функции величины результата каждого игрока в гольф на том или ином конкретном поле. Поэтому эта модель позволяет получить описание любого результата в выбранном по нашему желанию турнире по гольфу.

Эта базовая модель предоставляет надежную основу для размышлений о результатах игры в гольф; далее в этой статье речь пойдет о том, какие практические выводы можно сделать после ее применения.

Размер выборки всегда будет важен

Логически обоснованным первым шагом к использованию этой модели будет попытка оценить квалификацию игроков в гольф. Предположим, что в нашем распоряжении есть выборка данных о результатах прошлых выступлений одного конкретного гольфиста. Если эта выборка достаточно большая, то средний показатель результативности, определенный на ее основании, можно будет соотнести с уровнем квалификации этого игрока. Выборку какого размера можно считать достаточно большой?

Эмпирически было выявлено, что величина среднеквадратического отклонения результатов этого игрока в гольф составляет примерно 2,75 удара. Если исходить из предположения, что распределение подчиняется нормальному закону, то для 68 % результатов оно будет находиться в пределах величины 2,75 от среднего значения, а для 95 % – в пределах 5,5. Используя базовую статистическую теорию, мы можем в некоторой степени быть уверены в том, что для выборки данных о 100 раундах среднее значение будет находиться в пределах 0,275 удара от показателя уровня квалификации игрока в гольф.

Суть ключевой уступки, на которую вам придется пойти, заключается в том, что чем меньше измерений, на основании которых можно определить границы вариации квалификации игроков в гольф, тем больше данных потребуется для оценки соответствующих объемов значений.

В этом контексте следует обратить внимание на тот факт, что разница в средних показателях результативности за сезон игроков в гольф, занимающих в мировом рейтинге 50-е и 100-е места, составляет менее половины удара. Это подводит нас к основному практическому выводу, связанному с применением рассматриваемой модели: чтобы сделать достойные внимания выводы об уровне квалификации игрока в гольф, необходимо опираться на выборки данных о прошлых выступлениях больших размеров.

В соответствии с этой моделью различия в результатах гольфистов, продемонстрированных ими в любую отдельно взятую неделю, месяц или даже год, в основном обусловлены случайными вариациями. Для того чтобы иметь возможность с уверенностью считать, что разница в уровнях квалификации двух гольфистов находится в пределах 0,5 удара, потребуется проанализировать данные не менее 100 раундов. 

Важно отметить, что прийти к такому выводу можно только благодаря предположениям, включенным в алгоритм нашей модели. Но данные, полученные в результате применения этой модели, могут оказаться ошибочными. Возможно, что с течением времени уровень квалификации игрока в гольф не фиксируется и что на разных полях для гольфа, если брать наиболее часто используемый пример, игроки также не будут демонстрировать одни и те же «фиксированные» результаты. Поэтому те факторы, которые мы довольно пренебрежительно назвали «ненаблюдаемыми переменными», на самом деле могут оказаться вполне наблюдаемыми!

Фиксированный уровень квалификации или склонность к игре на конкретном поле?

Если считать, что игроки в гольф обладают фиксированным уровнем квалификации, то различия в показателях их результативности на разных полях, как предполагается, являются следствием влияния случайных вариаций, но в модели, учитывающей склонность гольфистов к игре на конкретном поле, это расхождение в результатах по крайней мере частично отражает различия в квалификации. 

Это не просто семантическая разница. То, насколько вы верите, что различия в показателях результативности игроков в гольф на разных полях обусловлены реально существующими различиями в их квалификации, в отличие от случайных колебаний, оказывает огромное воздействие на то, как вы будете оценивать уровень квалификации этих игроков (и в конечном счете влияет на ваши прогнозы).

Чем больше роль случайных вариаций, тем больше должна быть выборка, на основании которой вы сможете дать точную оценку квалификации игрока в гольф. Если уровень квалификации является фиксированным, тогда все вариации в результатах гольфиста случайны и, следовательно, для усреднения существующей дисперсии потребуется очень большая выборка данных о результативности.

Но поскольку большая часть наблюдаемых нами вариаций обусловлена склонностью гольфистов к игре на том или ином поле, возможно, что для получения обоснованных оценок подобной склонности нужны будут данные о всего нескольких раундах игры на соответствующем поле. 

Какая модель больше всего приближена к реальности? Если не обращаться к формальному анализу данных, то достоверным представляется утверждение о том, что генерирование данных о результатах игры в гольф осуществляется в рамках процесса, который ближе к модели фиксированного уровня квалификации, чем к модели, в основе которой идея о том, что уровни квалификации игроков подвержены частым колебаниям. 

Вернемся к примеру, связанному со склонностью гольфистов к игре на конкретном поле. Обратите внимание на то, что в масштабах участия в одном турнире, то есть игры на одном и том же поле, количество вариаций в результатах гольфиста ненамного меньше числа вариаций, фиксируемых в результатах этого игрока в раундах, сыгранных в целом на всех полях.

Это очевидное свидетельство того, что при определении результатов выступлений игроков в гольф по-прежнему следует учитывать ряд различных факторов, не говоря уже о том, что их показатели могут варьироваться в зависимости от поля. И, как говорилось ранее, это подразумевает следующий вывод: для понимания степени варьирования результатов гольфистов на разных полях требуются более обширные выборки данных.

Влияние явления тренда выживания в гольфе 

В целом, с точки зрения статистики, очень трудно объяснить наличие огромного количества вариаций в результатах игроков в гольф влиянием наблюдаемых факторов (под наблюдаемыми факторами следует понимать факторы, о существовании которых было известно до начала турнира). 

С другой стороны, не противоречит ли модель, основанная на предположении о фиксированном уровне квалификации игроков, некоторым вызывающим недоумение закономерностям, наблюдаемым в существующих массивах данных? Например, недавно Тони Финау в четвертый раз подряд не смог пройти отборочный тур Phoenix Open PGA Tour. Является ли это убедительным доказательством того, что именно на полях TPC Scottsdale уровень квалификации Финау опускается до наинизшей отметки? Возможно, но если модель, построенная на принципе фиксированного уровня квалификации, верна, то закономерности, подобные этой, все равно обнаружились бы.

Здесь мы имеем дело с той же логикой, что и в случае с явлением тренда выживания, распространенным в среде типстеров. Даже если вероятность того, что игрок уровня Финау четыре раза подряд не сможет пройти отборочный тур, составляет 1 к 500, то с учетом всех возможных комбинаций полей для гольфа и игроков (которых насчитывается тысячи) можно ожидать, что в течение нескольких сезонов PGA Tour лишь одно событие  из 500  будет происходить довольно часто. Концентрация внимания на одном или двух примерах и игнорирование при этом остальных примеров не позволит вам получить полное представление о явлении варьирования результатов гольфистов на разных полях.

Построение простой модели прогнозирования результатов в гольфе 

Простая модель, о которой говорится в этой статье, упрощает понимание различных способов анализа результатов игры в гольф. Хотя обе модели (модель, основанная на принципе фиксированного уровня квалификации, и модель, в основу которой заложена идея о склонности гольфистов к игре на конкретном поле), как представляется, основаны на совершенно разных системах знаний, их можно проанализировать, используя одну и ту же методику, что позволит выявить их недостатки и преимущества.

В этом случае суть ключевой уступки, на которую вам придется пойти, заключается в том, что чем меньше измерений, на основании которых можно определить границы вариации уровней квалификации игроков в гольф, тем больше данных потребуется для оценки соответствующих объемов значений. Например, для оценки уникального уровня квалификации игрока в гольф, демонстрируемого им на каждом поле турнира PGA Tour, нам в большинстве случаев будут доступны данные только для 5–10 раундов. 

И наоборот, для оценки фиксированного уровня квалификации каждого гольфиста можно использовать все существующие данные. Ни одна из представленных систем по своей природе не может считаться лучше другой, и эффективность модели, основанной на принципе фиксированного уровня квалификации, будет тем выше, чем большую роль играют случайные вариации в процессе определения результатов игры в гольф. 

Наш подход к пониманию результатов игры в гольф более тесно связан с моделью фиксированного уровня квалификации. Хотя эта модель очевидно является «ошибочной», тот факт, что с ее помощью можно рационализировать (и в конечном итоге прогнозировать) закономерности в результатах игры в гольф, впечатляет.

В будущих статьях мы представим доказательства, подтверждающие это утверждение, а также рассмотрим, как можно улучшить эту простую модель. Основной практический вывод, который можно вынести, согласившись с предположением, что модель, построенная на принципе фиксированного уровня квалификации, позволяет дать достаточно близкую к реальности оценку игры гольфиста, заключается в том, что в таком случае оказаться, если говорить чужими словами, «одураченным случайностью» невероятно просто.  

Ресурсы для размещения ставок: расширение возможностей игроков для размещения ставок

Ресурсы для размещения ставок Пиннакл содержат одну из наиболее полных коллекций экспертных рекомендаций по размещению ставок онлайн. Стремясь предоставить игрокам возможность расширить их знания, в этих рекомендациях мы постарались охватить все уровни опыта.