新聞網站 BuzzFeed 以善於挖掘眼球著稱,其新聞經常能炮製出很多話題。其中的奧秘在於它是一家以數據為驅動的公司。現在這家網站又利用大數據做出了一篇有關頂級男子網球選手打假球的深度報導。該網站的記者 John Templon 與 BBC 通過利用演算法,對 2009 到 2015年 的 26000 場 ATP 與大滿貫頂級男子網球賽進行了分析,經過長達 15 個月的艱苦調查後,他們得出了涉嫌打假球的場次和球員名單。不過文章並未披露具體球員名字,但其中一個的重量級的消息是,其中有位是排名前 50 的男選手,目前正在澳網打比賽。

Templon 首先跟體育彩券的調查員建立起一個測量指標—賽前賠率變化(收盤相對開盤)超過 10 個百分點的賽事。然後對每位球員進行了 100 萬次的模擬運算來評估選手打假球的置信度。最後在 26000 場比賽中找到了 39 位嫌疑人,其中有 15 位選手往往在下重注的比賽當中經常會輸掉。有一位選手在 16 場下了重注的比賽中輸了 15 場。

儘管這種模式的匹配並不能證明球員打假球,但是正常情況下,每每有人下重注押某位球員會輸時他總是會表現不佳的可能性也是非常低的。Templon 稱根據他的模擬結果,按照彩券公司最初開出的賠率,這名選手預期會輸掉比賽的幾率應該不會超過 1/7500。文章並沒有透露選手名字,但稱涉嫌打假球的球員是排名前 50 的選手之一,目前還正在澳網公開賽打比賽。

BuzzFeedNews 在 Github 上共享了與 BBC 合作的這篇名為網壇騙局文章的調查方法、原始數據以及演算法過程,其分析步驟大概是這樣的:

1、數據獲取。從 7 家彩券公司下載 2009年 至 2015年9月 間 26000 場 ATP、大滿貫比賽的開盤賠率和收盤賠率。

2、數據準備。準備比賽賠率數據集,內容包括每家彩券公司為每場比賽開出的賠率,比賽雙方選手、比賽結果、賠率變化情況等(將近 13 萬條記錄)。其中還根據賠率情況計算了每位選手的獲勝幾率(對方賠率 /(對方賠率 + 選手賠率))。

3、賽事排除。將取消的比賽、開盤賠率高於或低於所有彩券公司賠率中位數 10%的賠率排除在外,共剩下 25993 場比賽。

4、賠率變化計算。計算開盤和收盤賠率變化情況,如果選手 A 開盤勝率為 65%,收盤卻變成 50%,則賠率變化為 15 個百分點。

5、選手選擇。選出賠率變化超過 10%的選手(有 11%的比賽出現這種情況)。10%這個數據是跟彩券公司調查員討論後定下來的,超過這個數後彩券公司一般都會對賽事進行嚴格調查。然後再選出輸掉超過 10 場這樣賠率變化大的比賽的選手。最後發現有 39 名選手符合上述條件。

6、模擬。這一步用來估計每位選手比賽的結果的不可能程度。利用開盤時每位選手的獲勝幾率來生成一連串的結果。每位選手要進行 100 萬次模擬運算。

7、顯著性檢驗。然後對每位選手的結果進行顯著性檢驗。最後發現有 4 位選手打假球的可信度達到 95%。另 11 位選手儘管沒到達這種可信度,但輸球的幾率仍然低於 5%。

數據無疑可以幫助調查人員很多事情,尤其是利用演算法對數據進行大規模分析在新聞組織中屬於很罕見的例子。但是光靠數據科學家或者分析師來做調查是會存在巨大風險的,記者本人也需要對數據嫻熟,對瞭解事實嚴格要求。這種技術的配合應該是讓新聞故事符合事實,而不是拼湊出數據來配合故事。

而這次的大數據還只是利用了賠率分析,隨著人工智慧技術的發展和賽事轉播記錄的豐富,將來每一位球員的一舉一動、表情神態可能都會被記錄下來,運用大數據和人工智慧進行動作分析、微表情分析,那時候數據能說明的東西也許會更多。

資料來源:36Kr

分享本文 | Share This Page