編者按:本文來自微信公眾號 " 班門弄斧 ",作者孫永傑,關註 ICT 領域,文章秉承獨傢、獨特、獨立的觀點理念
曾幾何時,AI(人工智能)成為瞭諸多企業的口頭禪,不管這個企業身處什麼產業,是什麼樣的企業,好像不帶上 AI 就落伍瞭,媒體更是天天充斥著各種 AI 的報道,我們也是聽得耳朵磨出瞭繭子。在此我們不妨以業內公認的 AI 或技術或市場中的代表 IBM、谷歌和亞馬遜為例,看看 AI 的技術和市場究竟如何?
IBM" 沃森 "(IBM Watson):被疑為噱頭,商業化成本高企無實效
提及沃森,這個自從 6 年前在美國答題秀節目 Jeopardy 中打敗人類選手,就占據瞭無數的新聞頭條,並最早商業化(主要用於醫療領域癌癥的檢測和預防)的所謂 AI 系統。不過,隨著時間的推移,近期沃森卻屢屢遭受業內的質疑。
例如華爾街投行傑富瑞分析師詹姆斯 • 基斯納(James Kisner)發佈的關於 IBM 人工智能 " 沃森 "(IBM Watson)的研究報告就稱:IBM 對沃森的投資很難給股東帶來價值回報,並用案例說明瞭 IBM 沃森存在的廣泛問題,即該案例來自 IBM 沃森與 MD 安德森癌癥中心之間的合作,即在向沃森項目浪費瞭 6000 萬美元之後,MD 安德森癌癥中心最終停止瞭與 IBM 在這方面的合作,並承認這項技術尚未準備好臨床使用。而 MD 安德森癌癥中心的情況並非個案。多名人工智能領域的創業者都表示,他們在金融服務和生物科技領域的客戶在與 IBM 打交道時都有過類似經歷。
與華爾街投行的分析相比較,今年五月,在 CNBC 的金融市場觀察欄目 "Closing Bell" 上,風險投資人 Chamath Palihapitiy 更是語出驚人:" 實話實說,Watson 就是個笑話。我認為,IBM 非常擅長利用銷售和營銷手段,來誘導信息不對稱的人掏腰包。"
而美國認知科學會創始人 Roge Schank 認為 沃森根本不是認知計算系統,IBM 有誇大吹噓嫌疑,並做瞭如下論證,即為瞭展示沃森的超凡智能,IBM 從 2015 年以來在熱播電視節目中投放瞭沃森的廣告。在廣告中,沃森程序與搖滾靈魂人物鮑勃 • 迪倫進行瞭對話。
對此,Schank 指出,這個廣告恰恰說明沃森完全沒有理解迪倫的作品。盡管 " 時間流逝 " 之類的詞匯在迪倫的作品中時常出現,但所有熟悉迪倫作品的人都知道,迪倫是一位抗爭歌手,他的歌曲最關心的是民權、反戰這些主題。不過,迪倫歌的歌詞裡並沒有直白地寫著 " 反戰歌曲 "、" 民權運動 "。沃森隻根據詞頻統計等方式找到 " 時間流逝 "、" 愛情凋零 ",而沒有真正理解迪倫作品的真正主題。
谷歌 DeepMind:除瞭圍棋,技術與商業化類 " 沃森 " 前景不明
至於谷歌,去年 AlphaGo 依賴人工智能挑戰號稱最難的人類遊戲圍棋大獲成功,讓人工智能背後的 " 深度學習 " 廣為人知,也把谷歌此前收購的 AI 科技公司 DeepMind 推到瞭公眾面前。對此,就像前微軟亞洲研究院常務副院長芮勇所言,想要實現真正的人工智能還有很長的路要走,今天所有的人工智能幾乎都是來自於人類過去的大數據,沒有任何一個領域的能力源自自我意識,不管是象棋還是圍棋,計算機都是從人類過去的棋譜中學習。假如讓 AlphaGo 去下跳棋,它就會完全傻掉。甚至說把圍棋的棋盤稍作修改, AlphaGo 都招架不住,但是人類就沒有問題。AlphaGo 可以打敗三十多歲的李世石,但它的學習能力不及一個 5 歲的小孩,這二者是有很大區別的。
與沃森相比,DeepMind 則剛剛進入商業領域的應用。去年七月,谷歌宣佈 DeepMind 已找到方法將谷歌數據中心的制冷用電量減少 2/5。它的算法先分析數據中心的操作日志來理解任務,然後通過反復模擬運行來優化過程。同樣,DeepMind 也已經進入醫療行業。去年 11 月,公司獲得瞭首個付費項目,與 NHS 公立醫院皇傢自由倫敦醫院(Royal Free London)簽下五年的合同,為其處理 170 萬份病歷。此外,DeepMind 還獲得瞭訪問其它倫敦醫院兩個數據庫的權限,即 DeepMind 利用 AI 軟件分析瞭約 100 萬份視網膜掃描報告成功找到瞭退行性眼疾的早期征兆,或通過頭頸部癌癥圖像讓 AI 軟件學會區分健康和癌組織之間的不同。
從上述 DeepMind 的商業化看,與沃森類似,均需要首先獲取現實世界的大數據,即使擁有大量數據的可供挖掘的谷歌,運用 AI 及機器學習技術改進醫院、電網及工廠等系統時,獲取其具體操作數據也非常重要。原因很簡單,沒有人類提供的背景數據,哪怕極為簡單的挑戰,現有的 AI 技術也無法勝任。因此,當前的 AI 技術實際上並不 " 智能 ",也不是解決問題的萬能手。
提及數據,在人機大戰前,DeepMind 耗費瞭數年時間學習圍棋。參加《危險邊緣》問答的沃森,研發人員輸入瞭數 TB 有關問答節目和自然語言實例的數據,來幫助它理解這一節目的問答模式。隻有靠人類這樣有針對性的密集 " 訓練 ",這些機器才能表現得如此出色。會議安排助手 X.ai 這類看似簡單的應用程序卻花費瞭數年時間學習與會議安排相關的事項,才達到可投入商用的水平。而它們運作的過程,更類似於基於計算力提升之下的大數據分析和輸出,遠沒有創造性的推理。而眾所周知的事實是,在數據的處理(其實就是一種高速的運算),機器的能力早已經遠遠超過人類。
對此,有分析稱,DeepMind 未來可能無法單單通過利用 AI 程序解決復雜問題的方式創造大量營收,但 DeepMind AI 軟件通過分析數據所獲取的有用信息已經足夠讓谷歌為當初的競標所投入的巨資值回票價。看到這裡,相信業內應該知道 DeepMind 的本質以及谷歌打著 AI 旗號的真實目的瞭吧。
亞馬遜 Alexa:仍屬快速信息檢索,涉及自然語言識別折戟沉沙
最後看亞馬遜。其所謂的 AI 是隨著采用智能語音技術 Alexa 的 Echo 音箱的熱銷而為業內所知,某種程度上也代表瞭亞馬遜 AI 的水平。但從其應用看,智能語音服務范圍大都是在信息檢索,幫助用戶獲得資訊。絕大多數的內容是不牽涉 " 推理 "(對用戶自然語言的理解)的查詢類信息服務。如果用戶問到在基礎信息以上,一旦牽涉推理的問題,不僅是 Alexa,幾乎所有的智能語音識別(包括谷歌、微軟)都無能為力。
以亞馬遜的 Alexa 為例,去年一名六歲的女孩在跟 Echo 內置人工智能語音助手 Alexa 聊天時,意外訂下瞭價值 170 美元的玩具和一盒重達四磅的餅幹。雖然孩子的媽媽在收到一個不知打哪來的訂單確認電話後立刻進行瞭取消操作,但該訂單卻已經被處理,且一個跟孩子身高幾乎相同的玩偶就在隔天送來瞭。最後,他們無奈地決定將這一玩偶捐贈給當地兒童醫院。
又如亞馬遜 Alexa 誤聽指令向孩子提供成人內容,即小孩向亞馬遜 Alexa 下達指令:"Alexa,請播放‘ Digger digger(一首兒童歌曲)’。" 之後,亞馬遜個人助手通過算法進行識別,竟然認為孩子想聽情色內容。稍後,孩子的父母才意識到發生瞭什麼事,可惜他們已經無法阻止 Alexa 繼續播放聲音。
上述說明自然語言(真正的 AI 能力)的 " 難題 " 離最終的解決依然存有差距。因為不同的應用(問答、情感分析、機器翻譯、部分語音標簽)需要有不同的模型架構:強監督式記憶神經網絡、樹形長短記憶網絡、雙向 LSTM 限制隨機域(CRF)、動態記憶網絡等。即使在研究中出現一些非常有潛力的新想法,設計、工程合成、可擴展的對話系統與這些想法的結合依然處於非常復雜的狀態,離商用還很遙遠。所以,當被問及何時才能通過自然語言與數字助理交流,並得到滿意的答案時,就連吳恩達這樣的頂尖科學傢也無法給出確切答案。即便是對最高水平的神經網絡學傢而言,這項技術仍然有很多謎團尚待解開。有很多工作隻能通過不斷試錯來改進,沒有人敢保證某項技術調整可能產生什麼樣的後果。根據現有的技術和方法,這一過程大約要耗費數年時間。
正是在這些科技大佬的鼓動下,AI 正有走向泛化的趨勢。據統計,到去年年底,在財富 500 強企業中,就有 180 傢對外宣稱自己要啟動相關的人工智能項目。甚至有廣告研究公司大膽預估,到瞭 2020 年,人工智能技術可能會出現在幾乎所有的新科技產品的宣傳之中。另據 Gartner 在研究瞭 1000 傢宣稱自己使用瞭人工智能的技術供應商後發現,大部分所謂的人工智能技術,采用的依舊是基礎的、基於規則的機器學習和分析技術(例如上述的 IBM 的沃森和谷歌的 DeepMind)。這些技術,早在人工智能這個概念被熱炒之前,就已經出現並被業內所使用。更為關鍵的是,這些技術的能力遠遠未達到可以被稱得上 " 人工智能 " 的程度。
恰逢國務院《新一代人工智能發展規劃》頒佈之際,在彰顯我國政府對於科技產業前瞻性和勢在必得決心的同時,也應該警惕當下產業界 AI 泛化的趨勢,尤其是在每逢大的利好的產業政策或者綱要出臺,總是泥沙俱下的中國,切莫讓真正的 AI 淹沒在 AI 的泛化中。