“最強版 AlphaGo ”完虐前代 柯潔:人類太多餘瞭

10-19

今日凌晨(倫敦時間 10 月 18 日 18:00),DeepMind 公佈瞭 AlphaGo 的最新升級版本 AlphaGo Zero,並於最新一期的《自然》雜志上,對其使用的相應技術做出詳解。

DeepMind 稱,"AlphaGo Zero 與 AlphaGo 最大的不同是做到瞭真正的自我學習,經過 3 天的訓練,就以 100:0 的戰績完勝前代 AlphaGo。"

除瞭夜貓子們第一時間看到瞭這則消息外,曾與 AlphaGo 有過交戰的柯潔也在第一時間做出回應,柯潔表示," 對於 AlphaGo 的自我進步來講 ... 人類太多餘瞭 "。

今年 5 月,在烏鎮舉辦的圍棋峰會上,世界排名第一的柯潔不敵 AlphaGo,最終以 0:3 告負。隨後,AlphaGo 宣佈退役,不再與人類下棋,DeepMind 則表示,將在今年晚些時候公佈 AlphaGo 的技術細節。

那麼,究竟這次的 AlphaGo Zero 相較此前的版本有哪些提升呢?(劃重點啦)

1.AlphaGo Zero 通過與自己不斷挑戰來進行提升,不依賴人類數據。此前版本則是通過分析海量棋譜數據進行學習。AlphaGo 打敗李世石用瞭 3000 萬盤比賽作為訓練數據,而 AlphaGo Zero 僅用瞭 490 萬盤比賽數據。經過 3 天的訓練,AlphaGo Zero 以 100:0 的戰績完勝 AlphaGo。並且隻用瞭 1 臺機器和 4 個 TPU,而李世石版 AlphaGo 則用瞭 48 個 TPU。

2.AlphaGo Zero 隻使用圍棋棋盤上的黑子和白子作為輸入,而上一版本的 AlphaGo 的輸入包含瞭少量人工設計的特征。

3.AlphaGo Zero 不使用 " 走子演算 ",它依賴於高質量的神經網絡來評估落子位置。其它圍棋程序使用的快速、隨機遊戲,用來預測哪一方將從當前的棋局中獲勝。

4. 在訓練過程中,AlphaGo Zero 每下一步需要思考的時間是 0.4 秒。相比之前的版本,僅使用瞭單一的神經網絡。

5.AlphaGo Zero 采用的是人工神經網絡。這種網絡可以計算出下一步走棋的可能性,估算出下棋選手贏的概率。隨後根據計算,AlphaGo Zero 會選擇最大概率贏的一步去下。

DeepMind 聯合創始人兼 CEO 哈薩比斯稱:"AlphaGo Zero 是我們項目中最強大的版本,它展示瞭我們在更少的計算能力,而且完全不使用人類數據的情況下可以取得如此大的進展。"

2014 年谷歌以 4 億英鎊的價格收購英國人工智能公司 DeepMind。2016 年,谷歌旗下的 DeepMind 團隊發佈 AlphaGo,並在以 4:1 的成績擊敗李世石後,名聲大噪。

相較於研究成果的閃耀,DeepMind 在研究費用上的投入也是驚人的。據英國政府此前發佈的資料顯示,DeepMind 僅去年一年就虧損瞭 1.62 億美元。對此,DeepMind 則表示," 我們會繼續向自己的科學使命投資,與世界上最聰明的人合作,解決社會上最復雜的問題。"

精彩圖片
文章評論 相關閱讀
© 2016 看看新聞 http://www.kankannews.cc/