예상 골 수 통계는 널리 사용되는 예측 도구입니다. 베터가 예상 골 수를 활용해서 정확한 결과를 예측할 수 있을까요? 베팅 분석가 조셉 부크달 씨가 데이터를 분석하고 예상 골 수 통계를 활용해서 축구 결과를 예측할 수 있는지 알아보려고 합니다.
스포츠 베팅을 단순한 취미 이상의 것으로 여기는 사람들은 오랫동안 기대 가치, 특히 기댓값이라는 개념에 익숙합니다.
베팅에서 성공할 때도 있고 실패할 때도 있지만, 베팅 결과의 대부분은 운의 결과일 뿐입니다.
장기적으로 기댓값을 알면 베터가 더 큰 베팅 표본에서 베팅 성공 여부를 추측할 수 있습니다. ‘예측’은 ‘산술 평균’ 또는 ‘평균’을 의미하니까요.
최근에는 축구 결과 예측에 예상 골 수 또는 xG과 같은 개념이 사용되기 시작했습니다. 예상 골 수는 골로 이어질 수 있는 득점 기회에 확률을 계산해서 축구 팀과 선수의 성과를 평가하는 성과 지표로 사용됩니다.
이것은 골 득점 기회와 골 전환율에 대한 과거 데이터를 활용해서 계산합니다. 따라서 한 번의 득점 기회에 대한 xG는 1과 0 사이 값입니다.
또한 여러 골 득점 기회가 있는 경기의 xG를 합산하면 경기의 xG 또는 경기에서 각 팀의 xG를 알 수 있습니다.
xG를 통해 경기 중 팀 플레이의 수준을 알 수 있습니다.
이론적으로 xG는 한 경기에서 팀 플레이의 수준과 팀의 수준을 실제 골 득점 수보다 정확하게 나타냅니다.
골은 어느 정도의 운(통계학자들이 '노이즈'라고 부르는 것)에 의해 득점되며, 실제 스코어 라인을 사용하여 팀이 다음 경기에서 어떤 활약을 펼칠지 예측하는 것은 xG를 사용하는 것보다 신뢰도가 떨어질 수 있습니다.
어떤 의미에서 골은 베팅에서 승패와 같고, 예상 골은 기댓값과 같은 개념이라고 볼 수 있습니다. 그렇다면 베팅을 위해 축구 경기 결과를 예측할 때 골 대신 xG를 사용할 수 있을까요?
골과 xG의 비교
수학자이자 ‘Soccermatics: Mathematical Adventures in the Beautiful Game’의 저자 데이비드 섬터 씨는 경기의 결과를 예측할 때 골과 xG의 다른 유용성에 대한 몇 가지 설명을 제시했습니다. 섬터 씨는 골 데이터에서 추측에 필요한 시그널을 찾기가 쉽지 않다고 설명합니다.
“통계적 관점에서 볼 때 축구 경기의 결과는 시그널만큼이나 노이즈가 많습니다. 이에 대한 수학적 설명은 푸아송 분포에서 직접 확인하실 수 있습니다. 축구에서 골은 푸아송 분포이며 팀은 평균적으로 약 1.4골을 득점합니다. 푸아송 분포에서는 분산과 평균이 동일합니다. 따라서 표준 편차는 1.4의 제곱근인 1.18입니다. 따라서 노이즈(1.18)는 시그널(1.4)보다 약간 적습니다.”
반대로 xG는 가능성의 척도이므로 골보다 한 경기 동안 팀의 경기력을 잘 측정합니다.
일반적으로 노이즈가 적고 시그널이 더 많습니다. 골과 xG 모두 표본 경기 수를 늘리면 경기 결과의 노이즈 양이 감소합니다. 하지만 초반에는 골보다 xG에서 감소율이 더 가파르게 변화합니다.
섬터 씨는 이를 바탕으로 향후 경기를 예측할 때 어떤 종류의 데이터에 집중하는 것이 좋을지 설명했습니다. 하나 또는 두 경기에서는 경기 보고서가 가장 유용한 정보를 제공한다고 보시면 됩니다.
반면에 15경기 이상의 표본 또는 시즌 절반 이상인 표본의 경우, 골 데이터를 xG만큼 신뢰할 수 있습니다.
노이즈는 여전히 조금 더 있지만 그 차이가 적습니다. 또한 골은 현실(실제 일어난 일)을 나타내는 반면 xG는 골 득점 확률이라고 할 수 있습니다. 정확하지 않다면 실제로 골 데이터보다 신뢰성이 떨어질 수 있습니다.
이러한 차이점 중에 xG를 예측 도구로 활용해도 된다는 관점에서 흥미로운 부분이 있습니다. 섬터는 3~6경기의 경우 xG 보고서가 가장 유용할 것이며 7~15경기의 경우 골과 xG를 비교해야 한다고 설명했습니다.
본 기사에서는 팀이 플레이한 가장 최근 6개의 경기를 활용해서 베팅 예측에 활용 가능 여부를 판단할 수 있는 xG 예측 모델을 완성했습니다.
딕슨 콜스 모델
축구 경기 예측을 주제로 가장 참고해 볼만한 자료는 1997년 마크 딕슨과 스튜어트 콜스(랭커스터 대학교)가 Journal of Applied Statistics에서 발표한 자료입니다.
딕슨-콜스 모델로 잘 알려진 이 모델은 특정 경기 수 동안 각 팀의 득점 및 실점을 리그 평균과 비교하여 공격과 수비력의 개념을 설명했습니다.
그리고 각 팀이 다음 경기에서 득점할 예상 골 수를 예측하는 데 사용되었습니다.
마지막으로 푸아송 분포는 선수별 골 득점의 확률을 계산하는 데 사용되며 여기서 예상 골 수는 분포의 평균입니다. Pinnacle에서 해당 방법론을 설명하는 기사를 확인하실 수 있습니다.
여기서는 골 대신 xG를 사용하도록 모델을 조정했으며, 최근 6번 열린 홈 또는 원정 경기를 활용해서 공격력과 수비력을 계산했습니다. 계산 시 사용한 데이터 세트에는 2015/16 시즌부터 2019/20 시즌까지 잉글랜드, 프랑스, 독일, 이탈리아 및 스페인 프리미어 리그에서 열린 경기를 포함시켰습니다.
홈, 무승부, 원정 경기 결과에 대한 예측 확률을 페어 베팅 배당률로 변환한 다음 Pinnacle의 종가와 비교했습니다.
후자가 더 긴 경우, 이는 예측 모델의 이론 값을 나타냅니다. 그런 다음 밸류 베팅과 결과치를 비교했습니다.
아래 차트는 총 18,006개의 기회 중 모델에서 식별한 7,795개의 밸류 베팅 기회의 수익 시계열을 보여줍니다. 턴오버에 대한 플랫 스테이크 수익은 -5.0%였습니다. 이는 -4.3%의 손실과 비교되며 모든 18,006개의 결과가 싱글 유닛 스테이크에 이유 없이 베팅되었습니다. 이 표본의 평균 기댓값이 38.9%라는 점을 감안할 때 성공률이 상당히 낮다고 볼 수 있습니다.
잠재적인 모델 무효성
아마도 이 모델의 실패에 대한 첫 번째 이유는 평균 기댓값 수치에 있습니다.
평균 배당률이 4.69로, 전체 기회의 3분의 1 이상을 차지하는 베팅의 평균 기댓값이 40%에 가까운 수치는 Pinnacle의 실제 가격과 비교했을 때 페어 베팅 배당률에 큰 차이가 있음을 의미합니다.
모델의 예측 xG 값과 실제 예측 xG 값을 비교하는 도표를 보면 이 점을 확인할 수 있습니다..
노이즈가 많았습니다. 조정된 xG 모델은 팀의 실제 경기 xG를 정확하게 예측하는 데 큰 도움이 되지 않습니다.
최소 문제가 4가지나 되기 때문에 모델 실패의 원인을 찾아내기가 더 어려울 수 있습니다. 첫째, 딕슨 콜스 모델을 활용해서 축구 득점 수를 예측하는 것에 본질적인 문제가 있을 수 있습니다. 푸아송 분포는 골 득점이 독립적이라고 가정합니다. 즉, 한 골이 다른 골로 이어지는 것이 아닙니다.
그러나 이것은 선수와 팀워크의 영향을 무시합니다. 지고 있는 팀은 점수를 더 내기 위해 더 열심히 뛸 수 있고 반면, 동점인 경우 한 골만 더 넣으려는 의지가 생길 수 있습니다.
그렇다면 골이 무작위로 골대에 들어간다는 가정에 의문을 제기할 수 있습니다.
딕슨 콜스는 원래 예측 모델이 낮은 점수 결과(0:0, 1:0, 0:1 및 1:1)를 과소 보고했다고 밝혔습니다. 이를 확인하기 위해 모델 예측 xG와 실제 경기 xG 데이터를 최저에서 최고 순으로 정렬해서 아래(실선)에 상관 관계로 표시했습니다.
실제 경기의 낮은 xG 점수는 모델 예측 xG 점수보다 적었고 높은 xG 점수의 경우 더 많았습니다(점선).
딕슨과 콜스가 골 수에 대해 발견한 사실은 xG에도 적용되는 것으로 보이며, 경기 골과 경기 xG가 큰 데이터 샘플에서 어느정도 상관관계가 있다는 점을 감안할 때 전혀 놀랍지 않은 결과입니다.
오류의 두 번째 원인은 xG 모델 자체라고 볼 수 있습니다. 제 데이터 샘플의 경우 총 xG는 경기에서 득점한 실제 골 수와 97.8% 일치했습니다. 꽤나 높은 수치라고 생각하실 수 있지만 이 차이가 xG 예측 모델의 정확성에 영향을 미칠 수 있을 수준인지는 알기 어렵습니다.
세 번째 오류 원인은 딕슨-콜스 모델에서 공격력과 방어력을 계산할 때 사용한 경기에 있을 수 있습니다.
앞서 6개의 경기를 선택했다고 했습니다. 아마도 더 많은 수의 경기나 저 적은 수의 경기를 선택했다면 오류가 나지 않았을 수도 있다고 생각합니다.
선택한 경기 수를 변경하는 건 쉽지만, 모델을 완전히 다시 계산해야 하고 여기서 다시 계산하지는 않겠습니다.
그리고 6경기 모두 동일한 가중치로 계상했습니다. 딕슨과 콜스는 평균 강점을 계산할 때 최근 경기에 더 높은 가중치를 설정해야 한다는 점을 알아냈고 추후 모델에 이러한 가중치를 도입했습니다.
다시 말씀드리지만, 할 수는 있지만, 시간이 많이 소요되기 때문에 여기서 직접하지는 않겠습니다.
베팅 수익을 위해 축구 경기를 예측하려는 저의 모델에 한 가지 마지막, 그리고 아마도 더 실존적인 문제가 있다고 볼 수 있습니다.
다른 모든 오류 원인을 논외로 하고, 제 모델보다 훨씬 좋은 xG 모델을 사용하더라도 북메이커에서 배당률을 계산할 때 사용하는 모델만큼 좋지 않기 때문에 베팅 성공과 수익으로 이어지기가 쉽지 않다고 생각합니다.
딕슨-콜스 모델이 논리적으로 잘 정리된 모델이고 xG가 현재 널리 사용되는 수치임을 고려하면, 이미 북메이커도 배당률을 계산할 때 이러한 방식을 사용하고 있을 가능성이 높습니다.
스킬 콘테스트
스포츠 베팅은 경쟁이 심한 스포츠와 비슷한 면이 있습니다. 누가 미래를 가장 잘 예측하는지 경쟁을 하는 콘테스트와 비슷하다고 볼 수 있죠.
예측이 정확할수록 실제 결과 확률(결국 베팅 배당률)에 대한 신뢰도와 정확성이 높다는 평가를 받겠죠. 실수는 손해로 이어집니다.
틀림없이 업계 최고의 데이터 분석 북메이커인 Pinnacle은 일반인보다 훨씬 더 믿을 수 있는 예측 모델을 보유하고 있을 것입니다. Pinnacle에서 베팅을 해서 우연이 아닌 실제로 예측 후 수익을 낼 수 있는 고객이 있다는 것은 알고 있지만 이것이 얼마나 드문 일인지 이야기한 바가 있습니다.
예측 모델에 대해 이야기한다면 Pinnacle이 애스턴 빌라를 대표한다면 이러한 예리한 고객은 리버풀과 맨체스터 시티에 더 가깝다고 할 수 있습니다.
물론 여러분에게 리딩이나 더비처럼 괜찮은 예측을 할 수 있는 좋은 모델이 있을 수 있지만, 최고의 모델을 이길 만큼 좋은 모델을 계속해서 만들기란 쉽지 않을 것입니다. 여기서 알려드린 제 모델은 아마도 이스트미안 리그에서 활용할 자격조차 없을 것이라고 생각합니다.xG는 예측 모델을 구축하는 데 유용한 데이터가 될 수 있습니다.
축구 베팅 마켓에서 xG를 효과적으로 활용하여 베팅 수익을 낼 수 있는지 여부가 문제입니다. 예측 모델의 정확성은 활용하는 데이터와 정보의 수준에 따라 다릅니다.
xG는 실제로 예측 모델을 구축하는 데 유용한 데이터가 될 수 있지만 Pinnacle에서 다른 유용한 정보와 데이터를 기반으로 계산하고 있다면 개인인 여러분의 예측 모델이 북메이커의 모델을 능가하지 못할 것이라 생각됩니다.
xG 데이터에서 종합할 수 있는 모든 정보는 이미 배당률에 포함되어 있습니다. 캔베이 아일랜드 FC 대 애스턴 빌라라고 생각하시면 됩니다.
Pinnacle(기타 다른 북메이커)이 이미 예측 및 배당률 모델에 xG를 활용하고 있다면, 데이터가 벌써 공개된 마당에 북메이커보다 정확한 수준의 예측을 하기란 어렵다고 생각합니다.
xG 데이터를 활용해서 축구 베팅에 성공할 수 있을까요? 다른 모든 형태의 데이터 분석과 마찬가지로 답은 사용 방법에 따라 달라진다는 것입니다. 여러분이 이러한 데이터를 활용하는 방법이 북메이커에서 현재 사용하는 방식보다 확실해야 하겠죠. Joe의 트위터(여기) 또는 베팅 정보 페이지(여기)에서 최신 업데이트 정보를 받아보세요.