13. Netflix competition
• Bell et al. (2009), Abu-Mostafa (2012)
• Authors are from AT&T and Yahoo!
• Netflix: a company renting movies online
• 2007=>8.43%
• 2008=>9.63%
• 2009=>10.06%
• KDDCup
17. Reference
• Sadilek, A., Brennan, S., Kautz, H., & Silenzio, V. (2013, March). nEmesis: Which
Restaurants Should You Avoid Today?. In First AAAI Conference on Human
Computation and Crowdsourcing.
• Y. S. Abu-Mostafa. Machines that think for themselves: New techniques for
teaching computers how to learn are beating the experts. Scientific American,
289(7):78-81, 2012.
• R. Bell, J. Bennett, Y. Koren, and C. Volinsky. The million dollar programming prize.
IEEE Spectrum, 46(5):29–33, 2009.
• J. Stallkamp, M. Schlipsing, J. Salmen, C. Igel: Introduction to the Special Issue on
Machine Learning for Traffic Sign Recognition. IEEE Transactions on Intelligent
Transportation Systems 13(4): 1481-1483, 2012.
• GTSRB(German Traffic Sign Recognition Benchmark),
http://benchmark.ini.rub.de,
• KDDCup, http://www.kdd.org/kddcup/index.php
Notas do Editor
Sadilek, A., Brennan, S., Kautz, H., & Silenzio, V. (2013, March). nEmesis: Which Restaurants Should You Avoid Today?. In First AAAI Conference on Human Computation and Crowdsourcing. 這篇是2013年AAAI Conference上講ML(Machine Learning)在「食」上面的實務應用,它週期性收集了四個月twitter上380萬筆的資料(2012/12/26~2013/4/25),然後利用twitter上的geocoding對應到餐廳GPS的位置,並將收集到的twitter拆解成語料(corpus),利用人力去引導機器學習判別這些twitter中哪些是與因飲食生病相關的(文中說花了近1500美金),自動辨識出哪些餐廳可能有食安問題,作者之一在Google上班。整體的概念很有趣。
<number>
Y. S. Abu-Mostafa. Machines that think for themselves: New techniques for teaching computers how to learn are beating the experts. Scientific American, 289(7):78-81, 2012.這篇是2012年在美國科學人雜誌上的文章,內容提及一丁點 ML在「衣」上的應用,讓作者雖然不懂fashion仍可推薦別人,然後介紹基本ML的概念(supervised, unsupervised, reinforcement learning......),和提到比賽期間為三年的 100 million point of real data的 NetFlix 百萬美金「影片推薦演算法」競賽作者的團隊因晚20分鐘提解(第一和第二名的改善比率皆為10.06%),結果變成第二名,作者是加州理工學院的教授,影片推薦系統用了SVD(singular value decomposition)的ML strategy。
<number>
J. Stallkamp, M. Schlipsing, J. Salmen, C. Igel: Introduction to the Special Issue on Machine Learning for Traffic Sign Recognition. IEEE Transactions on Intelligent Transportation Systems 13(4): 1481-1483, 2012. 這篇是在講ML 在「行」的應用,用於實務的交通號誌辨識,交通號誌辨識的難度在於受到照明、部份遮蓋、旋轉和天氣狀況等因素影響,符號又有文字、圖示,顏色、形狀的差異,有些又十分相似(如速限標誌)。此Special Issue主要介紹四篇paper,也介紹了2011年IJCNN競賽最後一回合團隊用到的方法(共有超過20隊參加)。
GTSRB(German Traffic Sign Recognition Benchmark) http://benchmark.ini.rub.de,裡面有52000張圖43種不同類型的交通號誌,可作為benchmark dataset
,IJCNN比賽第二名的演算法是基於CNN(Convolutional Neural Network),其它的方法有SVM, linear discriminant analysis, subspace analysis, ensemble classifiers, slow feature analysis, nearest neighbor classifiers 和random forests(排名第三名的方法是K-D tree+random forests)。文中提到也有人把距當時八年內最新的44種 traffic sign detection algorithms做review和差異分析。
<number>
R. Bell, J. Bennett, Y. Koren, and C. Volinsky. The million dollar programming prize. IEEE Spectrum, 46(5):29–33, 2009,這篇是由Netflix 比賽的得獎者寫的,蠻精彩的科普文章,作者來自AT&T Lab和Yahoo!等公司,文中大略地介紹他們的方法。Netflix 是一家著名的線上租電影的公司,它自製了Cinematch系統,可依使用者的喜好去推薦使用者相關口味的片子。公司執行長Reed Hastings考量Netflix小組人力可能無法負荷眾多演算在巨量資料下的效能評測,於是舉辦了Netflix 百萬程式大賽,Netflix會提供十億的ratings資料,來自48萬匿名使用者,1 萬7千部片。Netflix會保留最近300萬筆rating資料,要求參與的競爭者去預測它㥃。Netflix會評估每位競爭者的300萬筆的預測資料,並與真實的rating資料做比較,用RMSE(Root Mean Squared Error)做預測正確性的metric,預測的愈正確,RMSE愈小,分數會立刻回報線上的leaderboard讓所有人看見。這樣巨量的資料集一般一天只能算一次(我找到這裡可下載,666MB http://www.lifecrunch.biz/archives/207),Netflix另外提供一個代表性的資料集讓你可以方便計算。2006年10月2日比賽開始,可惜目前已停辦(http://en.wikipedia.org/wiki/Netflix_Prize)。
作者發現Nearest-neighbor在neighbor數少於50時會表現的比較好
Latent-factor model則有相對的弱點,難以偵測一些緊密相關片子(如魔戒三部曲)的強烈關連性(association),而這二個方法是互補的。
第一年(2007)提出的方法是這二個方法組合成的變化型(包含參數tuning),改善 8.43% (原先比賽的目標是10%),2008和另一隊合作又得了2008 Progress Prize(9.63%),2009年由The Pragmatic Chaos得獎(10.09%也有寫10.06%)。
發現一件有新意的事是,他們發現給幾分不重要,which movies比較重要,而從原本的數值分數,轉成binary,此作法補強了其它方法。
<number>