【觀察者網綜合】谷歌子公司 DeepMind 當地時間 10 月 18 日發佈瞭一款新版本的 AlphaGo 程序,它能通過自學玩轉多種遊戲。這套系統名為 "AlphaGo Zero",它通過一種名為 " 強化學習 " 的機器學習技術,可以在與自己遊戲中吸取教訓。
DeepMind 網站截圖
該公司表示,AlphaGo Zero 的研發與其前身有很大不同。研究團隊不是根據已知的人類發展戰略使 AI 智能化,而是經過短暫的訓練使軟件能夠輕松擊敗此前的版本。 AlphaGo Zero 能不斷更新自己的遊戲知識,越來越好。
據 Deepmind 介紹,AlphaGoZero 采用瞭新的強化學習方法,從一個不知道圍棋遊戲規則的神經網絡開始,然後通過將這個神經網絡與強大的搜索算法結合,然後就可以實現自我對弈瞭。在這樣的訓練過程中,神經網絡被更新和調整,並用於預測下一步落子和最終的輸贏。
這一更新後的神經網絡將再度與搜索算法組合,這一過程將不斷重復,創建出一個新的、更強大版本的 AlphaGoZero。在每次迭代中,系統的性能和自我對弈的質量均能夠有部分提高。" 日拱一卒,功不唐捐 ",最終的神經網絡越來越精確,AlphaGoZero 也變得更強。
經過三天的不間斷比賽,Zero 能夠擊敗去年已經戰勝人類圍棋世界冠軍的 AlphaGo 版本。後者是去年擊敗瞭韓國選手李世石(Lee Sedol)的 DeepMind 軟件。經過大約 40 天的訓練(約 2900 萬場自玩遊戲),AlphaGo Zero 擊敗瞭 AlphaGo Master ( 今年早些時候擊敗瞭世界冠軍柯潔 ) 。事實上,AlphaGo Zero 連續贏得瞭 100 場比賽,取得全勝戰績。