去年,“阿法狗”(AlphaGo)代表人工智能在圍棋領域首次戰勝瞭人類的世界冠軍;今天,谷歌 DeepMind 團隊在《自然》(Nature)雜志發佈的論文介紹瞭他們的最近成果 AlphaGo Zero,它的棋力遠超阿法狗。曾與阿法狗對戰的中國頂尖棋手柯潔發微博感嘆:對於 AlphaGo 的自我進步來講,人類太多餘瞭 ……
“阿法狗”初次亮劍是在 2016 年 3 月,它與圍棋世界冠軍、職業九段棋手李世石進行圍棋人機大戰,以 4 比 1 的總比分獲勝;2016 年末、2017 年初,該程序在中國棋類網站上以“大師”(Master)為註冊帳號與中日韓數十位圍棋高手進行快棋對決,連續 60 局無一敗績;2017 年 5 月,在中國烏鎮圍棋峰會上,它與排名世界第一的世界圍棋冠軍柯潔對戰,以 3 比 0 的總比分獲勝。圍棋界公認阿爾法圍棋的棋力已經超過人類職業圍棋頂尖水平,在 GoRatings 網站公佈的世界職業圍棋排名中,其等級分曾超過排名人類第一的棋手柯潔。
谷歌今天發佈的這款名為 AlphaGo Zero 有多厲害?據“快科技”網站文章的介紹,它的系統可以通過自我對弈進行學習,它利用瞭一種名為強化學習的技術。在不斷訓練的過程中,這套系統開始靠自己的能力學會圍棋中的一些高級概念。
經過 3 天的訓練後,這套系統已經可以擊敗 AlphaGo Lee,也就是去年擊敗韓國頂尖棋手李世石的那套系統,而且比分高達 100 比 0。經過 40 天訓練後,它總計運行瞭大約 2900 萬次自我對弈,使得 AlphaGo Zero 得以擊敗 AlphaGo Master(今年早些時候擊敗世界冠軍柯潔的系統),比分為 89 比 11。
AlphaGo 之父戴密斯 · 哈薩比斯(Demis Hassabis)
與學習大量人類棋譜起步的前代 AlphaGo 不同,AlphaGo Zero 是從“嬰兒般的白紙”開始,通過 3 天數百萬盤自我對弈,走完瞭人類千年的圍棋歷史,並探索出瞭不少橫空出世的招法。
值得註意的是,雖然 AlphaGo Zero 在幾周的訓練期間學會瞭一些關鍵概念,但該系統學習的方法與人類有所不同。另外,AlphaGo Zero 也比前幾代系統更加節能,AlphaGo Lee 需要使用幾臺機器和 48 個谷歌 TPU 機器學習加速芯片。其上一代 AlphaGo Fan 則要用到 176 個 GPU 芯片。AlphaGo Zero 隻需要使用一臺配有 4 個 TPU 的機器即可。
論文截圖:無需人類知識,完勝舊版“阿法狗”
至於這項技術突破在現實中的應用,DeepMind 聯合創始人和總裁 David Silver 說,這一新技術能夠用於解決諸如蛋白質折疊和新材料開發這樣的重要問題。
DeepMind 聯合創始人和總裁 David Silver 介紹新版阿法狗。 (視頻自騰訊)
這篇論文發出的消息迅速點燃瞭圍棋界。曾和“阿法狗”交過手的中國棋手柯潔在微博感嘆:“一個純凈、純粹自我學習的 alphago 是最強的 …… 對於 alphago 的自我進步來講 …… 人類太多餘瞭 …… ”
(截圖自微博)
今年五月,輸給阿法狗的的柯潔曾在賽後一度哽咽,稱:“它太完美,我很痛苦,看不到任何勝利的希望。”在賽後的發佈會上,柯潔說,“很感謝 AlphaGo,我居然能有這麼大差距,希望我能再努力,讓差距更小一點。AlphaGo 實在太完美,以後差距隻能越來越大,我隻能說對自己的表現感覺很遺憾,為 DeepMind 團隊感到開心,AlphaGo 棋手能表現這麼完美,真是瞭不起。”
今年五月,柯潔對陣“阿法狗”。 (視頻截圖)
棋手古力也轉發瞭這條微博,說:“ 20 年不抵 3 天啊!我們的傷感,人類的進步!”
“ AlphaGo Zero ”的發佈再起引起網友對人工智能的熱烈討論,人工智能對人類的超越讓人既驚喜又擔憂。 在網友看來,機器雖然在比賽上勝過瞭人類,卻無法取代贏得人類的情感,尤其對於廣大圍棋迷來說,“阿法狗”並不能替代他們心中的棋手。