阿爾法狗的心虛

阿爾法狗的升級版阿爾法元（AlphaGo Zero）最近問世，通過三天的學習，就徹底超越瞭打敗李世石的第一代阿爾法狗。而且這次的升級版不再像以前版本那樣，從人類棋譜積累的經驗中學習，而是完全從零開始，通過機器左右手互博，" 自學成材 "。這反映瞭機器學習的強大能力。

確實，阿爾法狗給人最深的印象就是它的學習能力。當初它剛問世時，也存在許多業餘水平的漏洞，以致專業棋手有理由看輕它。不料，僅僅過不瞭久，它已經進步到可以戰勝李世石。即使在那個時候，它也不是不可戰勝的，仍有機可乘。但再次改進，就到瞭專業棋手難求一勝的地步。

現在專業棋手已經對人工智能阿爾法狗甘拜下風，心悅誠服，無保留地認為人類下不過它。可以說，態度比較端正瞭。比較專業棋手的實事求是態度，反倒覺得阿爾法狗研發團隊在專業態度上存在一些問題。

阿爾法狗的計算能力確實沒得說，阿爾法狗研發團隊本來沒必要心虛。即使當初設計還沒達到現在水平，犯瞭一些專業棋手看來低級的錯誤時，也沒有什麼。但阿爾法狗研發團隊給人一種感覺，似乎自始自終在掩飾。

這個研發團隊好像特別好面子，而且特別工於心計。比如說，當李世石能打過它時，故意找低水平的歐洲選手下；當柯潔還能看出它的弱點時，千萬百計不與之交手；直到用假名偷偷摸摸測試出柯潔加上其它人在一起也贏不瞭它時，才改用真名與之交戰；一旦贏瞭，又馬上說不跟人玩瞭，讓人感覺好像一個小孩子贏瞭之後再不給人翻身機會似的 ……。在這些方面表現得像個可愛的小孩子。小孩子想贏怕輸可以理解，但像阿爾法狗已這樣強大，研發團隊心理還這樣脆弱，實在沒必要。是的，他們現在是把專業棋手打服瞭，但站在中立立場上說，他們現在不過是揚長避短，以己所長，克人之短，並沒有坦率地把自己的短點拿出來示人，因此從圍棋棋道探究角度說，還留下瞭許多沒有探索到的空間。

別的不說，阿爾法狗對專業棋手下棋，第一，從不給專業棋手充分的練習、模擬機會，隻讓人傢打無準備之仗。這與圍棋界通過棋譜慢慢研究改進提高，在棋藝高度上是不一樣的。這是它第一個心虛的地方。第二，所有比賽都是在限時下完成的，這就極大放大瞭人類棋手的局限，難以在充分思考下展開博弈。機器計算速度明顯快於人，就算給人幾倍時間也不見得被人超過，但它卻不給人充分時間，這是它第二個心虛的地方。第三，機器不給專業棋手任何犯錯機會，因此難以檢驗出人不犯錯情況下會怎麼樣。舉例來說，柯潔下的最後一盤，前百步都是機器上計算的最佳結果，結果隻一步偏離，頓時全局再無翻身機會。專業棋手對此當然認帳，但旁人不免好奇，如果真像百年棋譜樣，經後人檢驗仍無漏洞，人機對弈會怎樣？這是它第三個心虛的地方。如果阿爾法狗團隊充分大度，不跟人類一般見識的話，還可以再提高。公平的說，它隻勝在競技圍棋上，說它已贏在整個圍棋上，還不能令人信服。舉例來說，阿爾法元上來就點三三，從來不下武宮正樹風格的棋。宇宙流是天才型風格，在機器對技術性錯誤的嚴厲懲罰下，人類還沒有下出這種風格，就早輸瞭。實際上機器並沒有真正試出這種藝術型的棋在不犯技術性錯誤的情況下到底可行不可行。

這最後一個方面，我自己有體會。下圍棋，用機器一檢驗，人類錯著實在太多。實際上還沒等你下出發揮長處的地方，光是錯著，足以把一盤棋葬送瞭。我用天頂程序（Zenith Go 6）下圍棋，設在一段水平上，下瞭數百盤同一定式的黑佈局棋，發現有一個明顯規律。如果不悔棋，雙方下得勢均力敵，一個錯著就會叫它幹掉。但如果我在犯錯處悔一下棋（天頂程序有 " 悔棋 " 功能），大多數情況下都能贏它達一百目以上（下圍棋開玩笑把這叫 " 百慕大 "）。悔棋當然是專業棋手不屑的。但從非競技實戰的棋理探索上，反復試錯卻是有意義的。

阿爾法狗團隊隻是想利用一把棋手，看來並不想承擔圍棋棋藝方面的社會責任；而且拒絕與人交流，也意味著技術上走向唯理性思路，封閉探索人類藝術性思維的可能性。希望中國人工智能團隊加把油，超過它，與棋手共同從技術和藝術兩方面探索發展棋藝本身。

責任編輯 / 薑奇平

意見反饋