1 5, 2018
1 5, 2018

스포츠 베팅에서 데이터 마이닝의 문제점

데이터 마이닝과 데이터 드레징이 무엇인가요?

간단한 무승부 베팅 전략 분석

베터가 '전체 원숭이 수'를 알아야 하는 이유

스포츠 베팅에서 데이터 마이닝의 문제점

베팅 전략의 일부로 데이터를 사용하는 것은 흔한 일입니다. 그렇게 얻은 일부 결과가 놀라울 수도 있지만 진짜 중요한 건 그런 결과를 만들어낸 과정입니다. 스포츠 베팅에서 데이터 마이닝의 문제점은 무엇일까요? 궁금하다면 다음 기사를 읽어보세요.

필자는 지난 몇 달간 꽤 많은 수의 웹사이트, 블로그, 포럼 게시글에서 수익이 나는 베팅 시스템을 알려주겠다고 주장하는 걸 목격했습니다. 이런 베팅 시스템들은 단순히 대량의 과거 결과 기록과 베팅 배당률 데이터를 추적한 후 여기에다가 멋대로 고른 것처럼 보이는 몇몇 기준을 적용하여 만든 시스템으로 보였습니다.

이 기사에서는 데이터 마이닝을 이용해 수익을 내려 할 경우에 빠질 수 있는 함정을 살펴보겠습니다. 스포츠 베터에게 있어, 인과 관계가 없는 상관 관계는 문제를 불러일으킬 뿐입니다.

데이터 마이닝과 데이터 드레징

데이터 마이닝은 대량의 데이터를 분석하여 패턴과 정보를 찾는 과정입니다. 데이터 드레징은 데이터 마이닝을 사용해 데이터 속에서 통계적으로 유의할 수 있는 패턴을 찾아내는 작업입니다.

결과를 기준으로 원인을 설명하려고 하면 인과 관계가 뒤바뀌게 되므로 그럴 수는 없습니다.

데이터 마이닝과 데이터 드레징은 쉽사리 스포츠 베팅에 이용됩니다. 다양한 웹사이트에서 과거 축구 결과와 베팅 배당률 정보를 대량으로 모아 수익이 나는 베팅 시스템을 찾을 수 있게 합니다.

이를 데이터 분석 도구로 사용하는 데 있어서 가장 큰 문제점은 왜 이러한 패턴이 생겼는지에 대한 사전 가설을 대부분 제시하지 않는다는 점입니다.

인과 관계가 없는 상관 관계 

이전에 인과 관계와 상관 관계의 혼동 그리고 정밀도와 정확도 및 타당도의 혼동으로 인한 문제에 대해 얘기한 적이 있습니다. 베팅 시스템이 타당하고 제대로 작동하려면 애초에 어떤 요인이 베팅 시스템을 성공으로 이끄는지부터 알아야 합니다.

상관 관계의 기반이 되는 인과 관계를 밝히지 않으면 무엇이 상관 관계를 허무는지 알 수가 없습니다. 즉, 인과 관계가 없는 상관 관계는 아무런 의미가 없는 것입니다.

English League Two 축구 속에 숨은 값?

몇 주 전 내 트위터에서 2012/13부터 2016/17까지 English League 2의 원정 팀이 승리한다는 데 마구잡이로 베팅했을 때 베터가 받을 수 있는 놀라운 수익에 대해 주목하게 되었습니다. 약 3,000번 베팅 시 피나클 마감 배당률 기준으로 4.3%에 달하고, 최고 시장 가격으로는 거의 10%에 달하는 수익을 낼 수 있었다는 놀라운 사실을 알았습니다.

피나클의 마감 가격 기준으로 봤을 때 총 5개 시즌 중 한 시즌만 손실이 있었고, 그 손실도 미미한 정도였습니다. 수익 차트는 다음과 같습니다.

article-data-mining-3-in-article.jpg

이게 시사하는 점은 시장이 리그의 원정 팀 가치를 낮게 평가하고 있었다는 것입니다. 즉, 배당률이 높은 가격으로 형성되어 있었다는 것이죠. 이것은 단기적으로 일어난 일탈 현상이 아닙니다. 오히려 베터들이 English League 2에서 원정 팀의 승리 확률을 북메이커의 수익 마진 범위보다 훨씬 낮게 봐서 일어난 지속적인 시스템상의 오류였습니다. 하지만 여기에 정말 무언가 인과 관계가 있었던 것일까요?

아주 간단하게 들리는 무승부 베팅

최근에는 또 다른 전략이 등장했는데, 바로 무승부 베팅이라는 전략입니다. 이 전략으로 2012년부터의 과거 축구 결과 기록과 피나클 경기 베팅 배당률에 2500번이 넘는 베팅 매출로 16%에 근접한 수익을 올렸다는 주장입니다.

선택 기준은 간단합니다. 양 팀 모두 이전 세 경기에서 무승부가 없었어야 하며, 배당률은 3.2부터 3.56까지여야 합니다. 이 수익의 통계적 유의성을 검증한 결과, 이 기록은 정말 특별한 기록이라는 게 밝혀졌습니다. 패턴이 무작위라는 가정하에 이러한 배당률에서 이 정도의 수익을 낼 확률은 백만분의 일도 안 되는 확률이라고 말씀드리겠습니다.

위와 같은 특정 기준을 선택한 이유가 궁금하신 분도 있을 것입니다. 이전 넷, 다섯, 여섯 경기는 안 되는 걸까요? 배당률 3.07~3.41이나 3.13~3.72는요? 당연히 이러한 기준들은 데이터를 마이닝하기 전에 선정된 기준들이 확실히 아닐 것입니다. 그저 수익을 낸 것으로 밝혀져서 선택되었을 뿐입니다. 이런 결과를 기준으로 원인을 설명하려고 하면 인과 관계가 뒤바뀌게 되므로 그럴 수는 없습니다.

상관 관계의 기반이 되는 인과 관계를 밝히지 않으면 무엇이 상관 관계를 허무는지 알 수가 없습니다.

이 전략의 옹호자 입장에서는 "확률이 백만분의 일이지만 적어도 무작위는 아니라는 뜻 아닌가요?"라고 물을 수도 있습니다. 네, 그건 사실입니다. 하지만 수백만 개의 전략을 검증해서 그중 하나가 통계적으로 유의하다면, 그건 무슨 뜻일까요? Nassim Taleb은 Fooled by Randomness에서 원숭이가 타자기를 두드려 Homer의 서사시를 그대로 쓴다는 공상 이야기를 소개합니다. 

“타자기를 친 원숭이가 모두 다섯 마리라면, 나는 '일리아드'를 친 원숭이가 혹시 호메로스의 환생은 아닌지 의심할 정도로 놀랄 것이다. 하지만 원숭이 수가 10억의 제곱이라면 그다지 놀라지 않을 것이다...”

Taleb이 지적한 대로 대부분의 사람들이 전체 원숭이 수를 고려하지 않으며, 고려했다 하더라도 누구도 논할 가치가 있는 흥미로운 패턴을 거의 발견하지 못할 것입니다. 생존자 편향은 우리가 승자만 보게 만듭니다.

베터가 '전체 원숭이 수'를 알아야 하는 이유

수익이 나는 패턴을 찾으려고 데이터를 드레징하기 전에 먼저 사전 가설을 세우지 않을 거라면, 대신 대량의 베팅 시스템을 검증하여 통계적 유의성이 얼마나 자주 발견되는지를 확인해야 합니다. 이 주제에 대해 트위터로 대답했듯이, "10,000개의 다양한 기준으로 선택된 블라인드 베팅 샘플 10,000개를 사용하여 수율 분포도를 그리면 어떤 그림이 나오는지 한번 봅시다."

아쉽게도 적절한 크기의 블라인드 베팅 샘플을 10,000개까지는 찾을 수가 없었습니다. 그러려면 정말 방대한 데이터가 필요합니다. 하지만 100여 개의 베팅으로부터 샘플 1,686개를 가져올 수 있었습니다. 각 샘플은 한 시즌 동안 한 축구 리그의 특정 결과(홈, 무승부, 원정)에 건 블라인드 베팅을 나타냅니다.

먼저 피나클의 수익 마진을 제거해서 각 결과의 '진짜' 가격을 계산한 다음, 각 샘플과 t 통계량의 이론적 수익을 계산했습니다. 나는 우연으로 수익이 발생하지 않을 확률을 계산하는 데 t 통계량을 주로 사용합니다. 그렇게 나온 결과는 아래 분포도와 같습니다. 양수 t 점수는 수익이 있는 샘플, 음수 t 점수는 손실입니다. 숫자가 클수록 발생 확률이 낮아집니다.

article-data-mining-2-in-article.jpg

정규 분포(종 모양의 곡선)에 익숙한 분들은 무작위성의 증거를 확인할 수 있을 겁니다. 즉, 블라인드 베팅 샘플들의 결과는 모든 것이 오직 확률에 의해서만 결정된다면 나올 수 있는 결과라고 우리가 생각한 바와 잘 들어맞았습니다.

이렇게 전체를 보면 시스템적으로 발생한 것은 거의 없다는 걸 알 수 있습니다. English League 2의 수익이 발생한 시즌은 데이터를 가지고 놀던 중 시스템적으로 비논리적인 베터나 북메이커의 판단으로 인해 수익이 난 것처럼 보이는 패턴이 드러난 그냥 운 좋은 발견이라고 보는 게 가장 적절해 보입니다.

다섯 시즌의 '진짜' 배당률 수익은 모두 고려해봤을 때 t 점수 +2.4로, 운으로 발생할 확률은 약 1/100(p값, 유의 확률) 정도입니다. 통계학적으로 봤을 때 이 수치는 유의하므로 만약 별개로 이에 대해 학문적 논문을 발표했다면 이건 진짜 의미가 있다고 주장했을 겁니다. 하지만 우리는 더 큰 그림을 분석함으로써 이게 순전히 운이었을 뿐이라는 걸 알게 되었습니다.

수익이 나는 기준을 찾을 때까지 데이터 드레징으로 베팅 시스템을 만드려는 경우, 발견한 결과의 인과 관계를 설명하지 못하게 될 수 있습니다.

실제로 English League 2의 2007/08 시즌 샘플은 훨씬 나은 결과를 보여줬습니다. 내가 가지고 있는 12월부터 5월까지의 242경기 데이터는 29%(마진을 제거한 '진짜' 배당률은 35%)가 넘는 이론적 수익을 보여줬습니다. 이러한 성과는 1/1000의 확률로 나타날 수 있습니다. 이는 1686개 샘플 중 가장 좋은 결과였습니다. 

전체 중에서는 예상대로 절반 정도인 837개에서 '진짜' 배당률로 베팅했을 때 수익이 발생했습니다. 이러한 샘플에서 우리는 가장 좋은 결과가 1/1686 정도의 p값을 나타내리라고 자연스레 예상할 수 있습니다. 샘플 16개(약 1%) 정도의 p값은 1/100 미만일 것으로 예상할 것입니다. 마찬가지로 샘플 168개(약 10%)의 p값은 1/10 미만일 것으로 예상할 것입니다. 뭔가 다른 결과가 나온다면 운이 아닌 다른 요인이 영향을 주는지 당연히 의심하게 되겠죠.

실제 결과를 보면 15개(0.9%)와 158개(9.4%)로 예상치와 비슷한 수치가 나왔습니다. 아래 차트는 p값이 특정 범위(1/10 = 10%, 1/5 = 20% 등) 미만으로 수익이 나는 샘플의 이론적 예상 비율을 실제 비율과 비교해서 보여줍니다. 둘이 거의 완벽하게 들어맞는 것을 보면 놀라울 따름입니다.

근본적으로 이 차트는 우리가 보는 거의 모든 게 운에 의해서만 발생했다는 사실을 다시 상기시켜줍니다. 물론 1/1000 확률 자체는 인상적인 수치지만 샘플이 1,000개가 넘으므로 충분히 일어날 수 있는 일입니다. 고로 이것은 인과 관계의 뚜렷한 증거가 될 수 없습니다. 

article-data-mining-1-in-article.jpg

베터는 데이터 마이닝과 데이터 드레징으로부터 무엇을 배울 수 있나요?

축구 리그 시즌의 수익성 분포가 무작위인 것은 별로 놀랍지가 않습니다. 데이터 마이닝과 드레징은 베팅 시스템을 고안하기 위한 정교한 수단이 아닙니다. 우리가 알아야 할 점은 수익이 나는 기준을 찾을 때까지 데이터 드레징으로 베팅 시스템을 만드려는 경우, 발견한 결과의 인과 관계를 설명하지 못하게 될 수 있다는 점입니다. 

왜 수익이 발생했는지 이유를 얘기하지 못한다면 그냥 쓸모없는 정보일 수 있습니다. 인과 관계가 없는 상관 관계는 결국 평균으로 회귀하게 됩니다. 평균으로 회귀한다는 건 스포츠 베터가 장기적으로 돈을 잃게 된다는 뜻입니다.

운을 사용해 수익을 내는 게 무슨 문제냐고 주장할 수도 있습니다. 결국 운과 대결하는 게 베팅의 본질이니까요. 하지만 그렇게 베팅에 성공하더라도 그 성공이 다른 요인 때문에 얻어진 것이라고 우리 자신을 속이지는 말기를 바랍니다.

베팅 정보 - 베팅 지원

피나클의 베팅 정보는 온라인의 모든 전문가 베팅 조언 중 가장 광범위한 콜렉션입니다. 모든 경험 수준에 맞추어서 피나클의 목표는 단 하나, 베터가 더 풍부한 지식을 함양하도록 지원하는 것입니다.