AlphaGo 以己為師,人類會變得多餘嗎?

10-19

2016 年 3 月,李世乭 1-4 敗給瞭來自英國的圍棋人工智能系統 AlphaGo。

2017 年 1 月 4 日,在取得瞭 59 場連勝之後,化名 Master 的神秘棋手在留言板上承認瞭自己的身份。

2017 年 5 月,在中國烏鎮 · 圍棋峰會上,AlphaGo 對陣人類世界排名第一的棋手柯潔,三局全勝。

以上就是 AlphaGo 在科技圈大規模刷屏的三次事件。

當其研發團隊 DeepMind 在烏鎮宣佈 AlphaGo 正式退役時,所有人都以為這是一個創造瞭歷史的圍棋「棋手」傳奇的結束,但沒想到的是,2017 年 10 月 19 日的清晨,科技圈和圍棋圈再一次,集體被 AlphaGo 刷屏。

從零開始純自學的 AlphaGo

根據 DeepMind 的官方網站,AlphaGo 推出瞭最新的升級版,名為 AlphaGo Zero,這個版本完全依靠機器自己進行強化學習,在擺脫瞭大量的人類棋譜後,機器根據圍棋的規則左右互搏,在三天之內就超越瞭去年三月對陣李世乭的版本,接著在第 21 天戰勝瞭對陣柯潔的版本,到第 40 天,在對陣此前最先進的版本時,已經能保持 90% 的勝率。

DeepMind 官方表示,這毫無疑問是史上最強的圍棋棋手。

但你也知道,僅僅是棋藝的升級不足以讓它一夜之間霸占中外媒的頭條,是什麼讓再次升級的 AlphaGo 吸引瞭這麼多人的關註呢?

柯潔和古力紛紛轉發微博感慨機器的強大

DeepMind 在自己的官網上發表瞭一篇博客文章,同時表示新版本 AlphaGo 的研究論文已在權威學術期刊《自然》上發表。對學界來說,這是一個非常重磅的消息,總結來說這個版本特別的原因有三:

1、AlphaGo Zero 隻使用圍棋棋盤上的黑子和白子作為輸入,而 AlphaGo 之前的版本中包含瞭少量人工設計的功能。

2、它使用的是一個神經網絡而不是兩個。AlphaGo 的早期版本使用「走棋網絡(policy network)」來選擇下一個動作和一個「價值網絡(value network)」來預測遊戲的贏傢。AlphaGo Zero 合並瞭兩者,使其能夠更有效地進行訓練和評估。

3、AlphaGo Zero 不使用「Rollout」——其他圍棋程序使用的快速、隨機的遊戲來預測哪個玩傢將從當前的棋局中獲勝。相反,它依賴於高質量的神經網絡來評估棋局。

以上這三點大大改善瞭 AlphaGo 的表現。

擺脫人類經驗後下得更好

但 DeepMind 同時指出,是算法的改變讓這個系統更加強大且高效。

72 小時自我對弈,AlphaGo Zero 就以 100-0 的成績戰勝瞭此前對陣李世乭的版本;40 天訓練之後,它成功超越瞭擊敗柯潔的改良後的 Master 版本。

從下面的動圖可以看到,因為從零開始的緣故,AlphaGo Zero 的初期表現非常糟糕,但水平提高的速度也非常快,僅僅三天就超越瞭對陣李世乭的版本。

「它比此前的版本更強大,是因為滅有使用人類的數據,也不使用任何形式的人類經驗,我們已經消除瞭人類知識的局限,它能夠創造知識本身,」AlphaGo 的首席研究員 David Silver 說道。

這個系統通過強化學習來提高它自身的技巧水平。每當 AlphaGo Zero 走瞭一步好棋時,它就會獲得系統的「獎勵」,反之則有損失。

系統的核心是一組軟件上的「神經元」,這些「神經元」連接在一起,形成一個人工的神經網絡。在遊戲的每一個回合中,神經網絡會查看棋盤上棋子的位置,然後計算下一步棋的位置,並計算出每一步的可能性,做出最可能獲勝的選擇。在每一場比賽之後,它會更新它的神經網絡,使它在下次比賽中更加強大。

盡管比以前的版本好得多,但 AlphaGo Zero 其實是一個更簡單的系統,它需要的數據更少,硬件要求也更低(對陣李世乭的 AlphaGo 使用瞭 48 個 TPU,而 AlphaGo Zero 隻用瞭 4 個 TPU),但它仍能夠更快地掌握遊戲。Silver 表示,如果有更多的時間,它甚至可能會發展出一套自己的規則。

根據一些外國棋手的觀察,AlphaGo Zero 在棋局的初期表現仍與人類千年來的套路相同,但到棋局中期就會變得令人難以理解。

圍棋之外,AlphaGo 還能帶來更多

這也是這次 AlphaGo 再次刷屏的原因之一。身為該研究重點的強化學習是機器智能領域一個非常重要的技術,它從深度學習中延伸出來,進一步擺脫人類的幹涉訓練機器,而 DeepMind 也一直致力於「深度強化學習(Deep Reinforcement Learning)」的研究。

此前他們就發表瞭一篇論文,研究如何讓一個 AI 系統自學「跑酷」。該 AI 系統在沒有輸入人類經驗的前提下學習翻越障礙物,最終發展出自己翻越的方法。

機器能夠發現人類無法發現的一些東西,這在人工智能界是一個普遍的共識,早先就有人頗為異想天開地嘗試讓人工智能根據圖片來辨別人的性取向,雖然這樣的研究遭到瞭不少的批評,但它確實反映瞭人工智能研究者們對 AI 的一些期待。

人類自己的知識是有局限的,而本質是計算機程序的人工智能往往與大多數人類的視角不同,他們能夠在人類的固有思維和司空見慣的事物中發現人類找不到的規則和破解問題的方法。

AlphaGo Zero 就是一個很好的證明。

所以讓 AlphaGo Zero 再次刷屏的並不是它多強的圍棋技巧,也不是「100-0」、「3 天」和「40 天」這樣惹人眼球的數字,而是它所證明的技術理論的可行性

在圍棋以外,得到論證的理論其實還能做到更多。

「盡管目前仍處於早期階段,但 AlphaGo Zero 構成瞭朝著這個目標邁進的關鍵一步。如果類似的技術可以應用到其他結構問題上,比如蛋白質折疊、減少能源消耗或者尋找革命性的新材料時,那麼這些突破就有可能對社會產生積極的影響。」DeepMind 在官方博客中如此說道。

所以,有關「讓機器下圍棋,下得再好又有什麼用」的看法其實是非常幼稚的。

當 DeepMind 和 OpenAI 等公司開始研究讓 AI 打 Dota、星際爭霸等遊戲時,收獲的往往也是社會上的嘲笑聲。

在大多數人的設想中,他們希望人工智能幫他們開車、打掃房間、完成這樣那樣簡單且重復性的工作。事實上,這也是那些擁有著最頂尖技術的科技公司想要的,但在達到這些終極目標之前,他們也需要棋牌、遊戲等訓練算法的土壤,在這些模擬的棋局、比賽中,打造 AI 系統的模擬器(simulator),這也是為什麼當 DeepMind 表示要挑戰星際爭霸時,他們表示這會比圍棋更有挑戰性——因為 MOBA 類遊戲的場景更加復雜。

頭圖來源:視覺中國

精彩圖片
文章評論 相關閱讀
© 2016 看看新聞 http://www.kankannews.cc/