【AI 世代編者按】美國《連線》雜志近日撰文,介紹瞭蘋果 Siri 語音助手的幕後團隊如何對其進行改進,使之通過更自然的發音與用戶互動。
以下為原文內容:
亞歷克斯 · 阿賽洛(Alexa Acero)第一次看電影《她》(Her)的時候,心態完全是個正常人。但第二次看的時候,他根本沒睜眼睛。作為負責 Siri 技術的蘋果高管,他當時閉著眼睛仔細聆聽斯嘉麗 · 約翰遜(Scarlett Johansson)給個人工智能角色薩曼莎(Smantha)的配音。
他的重點是薩曼莎跟喬奎因 · 菲尼克斯(Joaquin Phoenix)扮演的西奧多 · 托姆佈雷(Theodore Twombly)說話的方式,以及托姆佈雷的回應方式。阿賽洛希望搞清楚薩曼莎為什麼能讓別人在看不到她的情況下愛上她。
當我問阿賽洛,他覺得這個聲音為什麼效果那麼好時,他笑瞭起來,因為答案顯而易見。" 它很自然!" 他說," 完全沒有機器人的痕跡!" 這對阿賽洛來說根本算不上什麼發現。這基本確認瞭他在蘋果領導的團隊過去幾年找對瞭目標:讓 Siri 的聲音更像人類。
今年秋天,當 iOS 11 安裝到全球數以百萬的 iPhone 和 iPad 上時,這套新系統將給 Siri 帶來新的聲音。它不會包含太多新功能,講的笑話也不比以前幽默,但你肯定會註意到它的變化。
Siri 現在會在句子裡增加更多的停頓,還會在停頓之前拉長音節,甚至在說話過程中抑揚頓挫。Siri 的發音將更加流暢,掌握的語言也更多。聽它說話,或者跟它對話,會讓人更加舒心。
蘋果多年以來一直在調整 Siri 的後臺技術,將它從一個虛擬助手變成你手機上所有人工智能技術的統稱。它已經急速擴張到新的國傢,掌握瞭新的語言(雖然存在種種缺陷,但 Siri 卻是目前全球化程度最高的虛擬助手)。盡管起初較慢,但蘋果最近正在加快 Siri 的佈局速度。
Siri 的負責人也剛剛變成瞭蘋果軟件主管克雷格 · 費德裡奇(Craig Federighi),表明 Siri 現在對蘋果的重要性與 iOS 相當。
不過,它現在還遠遠不能讓你與自己的虛擬助手墜入愛河。但阿賽洛和他的團隊認為,他們已經實現瞭巨大進步。他堅信,如果能減少 Siri 語音中的機器人成分,使之更像是你所認識和信任的人,那麼即使偶爾失效,他們依然能把 Siri 打造成一款偉大的產品。而在人工智能和語音技術發展的初期,這或許是最佳場景。
Siri 成長史
如果你想通過生動的案例瞭解蘋果有多麼喜歡控制自己產品的方方面面,那就看看 Siri。從很多方面來看,已經發佈 6 年的 Siri 都已經在虛擬助手大戰中落後。亞馬遜 Alexa 獲得瞭更多開發者的支持,Google Assistant 掌握瞭更多知識,它們也都兼容瞭很多第三方設備。
蘋果表示,這並不是它的錯。當 Siri 發佈時,是另外一傢公司為其提供後臺語音識別技術。所有跡象都表明,Nuance 就是這傢公司——盡管雙方都沒有證實這種合作。但無論對方是誰,蘋果都把 Siri 早期的問題推到瞭這傢公司身上。
" 這就像跑步比賽,但卻有人拖瞭我們的後腿。" 蘋果產品營銷副總裁格雷格 · 喬斯維亞克(Greg Joswiak)說。他表示,蘋果一直都對 Siri 寄予厚望," 我們希望虛擬助手能夠在手機上跟你說話,還能通過更加簡單的方式為你做一些事情。" 但技術還不夠好。" 你知道,進來的數據沒用,出去的也沒用。" 他說。
幾年前,阿賽洛領導的蘋果團隊控制瞭 Siri 的後臺,調整瞭它的使用體驗。它現在的技術是基於深度學習和人工智能搭建的,效果比以往有瞭很大進步。Siri 的原始語音識別能力碾壓所有對手,可以正確識別 95% 的用戶語音。
人工智能存在於這套系統的兩個關鍵部分:語音轉文本和文本轉語音,前者負責幫助 Siri 理解你說瞭什麼,後者則負責幫助 Siri 說話。
Siri 最重要的工作之一就是把你的聲音與其他人區分開來,尤其是當這些系統的個性化程度提升時。Siri 掌握的數據越多,蘋果的模型就越好,也就越能區分不同人的聲音,甚至聽懂濃重的口音。
但這其中也蘊含著一些安全擔憂:研究人員最近發現,他們可以用人類無法聽到的高頻聲音與 Siri 交流,使得黑客在不知不覺間展開攻擊。Siri 需要把人類與機器人的語音區分開來,還要分辨出你跟其他人的聲音有何不同。
學說話
想要理解這些系統的運作方式,可以首先瞭解蘋果是如何教給 Siri 掌握一門新的語言的。當把 Siri 引入新的市場(以上海為例),該團隊首先會找到現成的方言數據庫。他們會聘請當地的配音員對其進行補充,讓他們閱讀書籍、報紙、網文等內容。
蘋果的團隊將這些錄音轉錄下來,把文字與聲音一一匹配——更重要的是識別音素和組成所有語音的每個聲音。他們試圖以所有能夠想象的方式捕捉這些音素:單詞結尾的弱音、開頭的強音、停頓前的拖延、提問時的升調。
每一種表達所對應的聲波都略有不同,而蘋果的算法則會通過分析尋找最適合某個句子的表達方式。Siri 的每個句子都包含幾十或幾百個音素,就像從雜志上剪下文字後拼成勒索信一樣。當你聽到 Siri 說話時,可能其中沒有一個單詞是按照最終輸出的效果錄制的。
阿賽洛舉瞭個例子:"You want to watch this?"(你想看看這個嗎?)和 "I like your watch."(我喜歡你的手表)。阿賽洛在第一句話裡說到 "watch" 時的聲調會自然上揚,但第二句則會降調。" 單詞雖然相同,但念法卻截然不同。" 他說。他無法通過同一個 "watch" 錄音來表達這兩句話——甚至無法使用相同的音素。老款的 GPS 導航儀中經常能夠聽到語調怪異的聲音,導致我們很難聽清——如果系統一次性說好幾個字,這種現象就尤為明顯。
就算是幾年前,電腦和服務器也無法提供足夠的處理能力,從龐大的數據庫中為每一次調用和響應尋找完美的合音。但現在可以做到瞭,所以阿賽洛和他的團隊希望獲取盡可能多的數據。
於是,當他們開發瞭一個初步模型後,便以他們所謂的 " 純口述模式 " 推出 Siri。你不能跟 Siri 說話,但卻可以按住麥克風按鈕,然後讓其編寫短信或搜索網絡。這幫助蘋果的機器收集瞭許多口音,涉及的麥克風質量和所處的環境也各有不同,這都讓 Siri 可以更好地服務於更多的用戶。
蘋果匿名收集數據後,便會將這些數據轉錄下來,用於改進算法,訓練網絡。之後用帶有地域特色的數據和語音習俗對其進行補充,然後繼續提煉系統,直到 Siri 能夠完美地理解上海話的內容和表達方式。
與此同時,蘋果還在大量尋找合適的配音員。最初找到瞭幾百人,讓他們根據 Siri 可能表達的內容錄制樣本。阿賽洛之後與蘋果設計師和用戶界面團隊進行合作,從中挑選他們最喜歡的語音。這一部分的藝術性高於科學性——他們需要傾聽一些難以用語言表達的感受,包括有愛互助,勇敢堅定而不突兀,幸福快樂但卻不能讓人感覺像動畫片。
接下來的部分完全是科學。" 有很多聲音很好的配音員。" 阿賽洛說," 但這並不表示他們的聲音適合在從文本轉換成語音時使用。" 他們通過自己的模型來運行語音,尋找所謂的音素變化——從本質上講,就是每個細微的發聲的左右兩側之間的聲波差異。一個音素內的變化越多,就越難將很多這樣的音素以自然的方式拼湊起來,但你在聽它們說話時永遠聽不出問題。
隻有電腦能夠發現這種差異。" 這就像在墻上貼壁紙的時候,必須通過接縫來確保它們緊密貼合。" 阿賽洛說。
當他們找到同時適合人類和電腦的人聲後,蘋果就會針對其錄制幾個月的聲音,之後就變成瞭 Siri 的聲音。Siri 支持的 21 種語言都采用瞭這種方式,而且針對 36 個國傢進行瞭優化——超過所有競爭對手的總和。
每月總共有 3.75 億人使用 Siri。這是個龐大的數字,尤其是對於一個因為存在許多嚴重缺陷而廣受批評的語音助手而言。
不過,相比於十億多蘋果設備用戶來說,3.75 億已然相形見絀。並非所有的蘋果硬件都內置 Siri ——除瞭 iPhone 外,他們還出售 Apple Watch、MacBook 和 Apple TV 等設備。但分析師估計,要不瞭多久,活躍的 iPhone 數量就將超過 10 億臺。
Siri 是一項重要而廣受歡迎的功能,但普及范圍還不算廣。而對多數人來說,它顯然也算不上必不可少:Siri 顯然不是手機那樣的必需品。現在,蘋果有瞭一個信任的助手,它還必須教給人們如何使用。
什麼都能問
關於蘋果開發 Siri 的意圖,隻要看過他們請道恩 · 強森(Dwayne Johnson)拍的一則廣告就明白瞭。整個廣告展示瞭 Siri 在強森生活中發揮的各種作用:他修剪花草時用 Siri 查看日程和提醒事項;他還用 Siri 叫瞭一輛 Lyft 專車——當然是他自己開車;高速行駛時用 Siri 瞭解天氣狀況;然後在西斯廷教堂繪畫時用 Siri 查看郵件;騰不出手時用 Siri 換算容量單位;還能使用 Siri 啟動 FaceTime,甚至在太空自拍。Siri 管強森叫 " 大塊頭、光頭、美男子 ",希望這種方式能降低你使用 iOS 11 時的不適感。
喬斯維亞克表示,蘋果一開始希望 Siri 是一個能處理任務的機器。但當人們通過各種繁瑣的問題來對比虛擬助手時,他感到非常抓狂,因為 Siri 在這些情況下的表現似乎很糟糕。" 我們沒想過把這個東西變成問答遊戲。" 他說。
相反,喬斯維亞克仍然集中精力用一個自動化程序幫助人們做更多事情。他指出,Siri 可以在 Mac 上完成復雜的文件搜索,或者在即將發佈的 HomePod 音箱上展示出深厚的音樂知識。還有一個例子是在我們見面幾天後發生的,Siri 當時因為出色的語音搜索和控制功能獲得瞭科技艾美獎。你可以對系統說," 嘿,Siri,往回倒兩分鐘。" 就可以輕松實現回放,這實在太方便瞭。
Siri 並非無所不能,它做不到的事情還有很多。它最大的用處就是讓你可以少點擊幾下屏幕,少輸入幾個文字,而不是解決復雜的問題,或者對我們是否生活在模擬空間展開辯論。不過,由於 Siri 沒有任何限制,你可以隨意向其提問,所以用戶會嘗試各種各樣的問題。
" 讓用戶知道他們能說什麼並非小事。" 阿賽洛說。他的工作之一就是幫助 Siri 提升交流技巧,在無法回答問題時也可以保持優雅。" 我們需要為 Siri 賦予這種能力,讓它知道自己究竟有什麼不知道。" 他說," 但這是個棘手問題。" 蘋果的網站,甚至它的廣告都是為瞭幫助人們更好地理解 Siri 能做什麼,不能做什麼。
另外一項挑戰是讓人們記住 Siri 的存在。" 人們做某件事情的時候都有自己的習慣," 阿賽洛說," 如果他們習慣瞭打字,想要突然改變,就需要一段時間。" 所以,蘋果向著正確的方向鼓勵人們。
在 iOS 11 中,Siri 的曝光度將大幅加強,也將比以往更加主動。它會觀察你的瀏覽網頁的過程,然後向你推薦適合閱讀的 Apple News 文章,或者在你通過 Groupon 預約按摩後幫你添加提醒日志。新的 Siri 可以在不同的設備間同步設置,所以無論你使用的是什麼電子產品,Siri 都對你瞭如指掌。
過去幾年,蘋果沒有加快進度讓開發者整合 Siri。Alexa 和觸角相對狹窄的 Google Assistant 都鼓勵第三方開發與之兼容的應用,而 Siri 卻始終與世隔絕。
事實上,強森在廣告裡所做的一切都隻能通過蘋果自己的應用完成。它不會調用你手機上的谷歌地圖或 Outlook,也肯定無法開啟不支持 HomeKit 的燈泡。去年,該公司謹慎地面向更多開發者開放,允許用戶使用 Siri 撥打 WhatsApp 電話,呼叫 Uber 專車,或者用 Venmo 匯款。iOS 11 的大門將進一步敞開,但幅度卻很小。
這種緩慢的進度導致蘋果在吸引力方面喪失瞭領先優勢,因為亞馬遜和谷歌都在加大對開發者的支持,並且相互比拼功能。至少喬斯亞維克仍然很有耐心。他表示,問題不在於 Siri 能做多少事情。" 而在於‘怎樣才能做對?’因為我們不想變得太死板。"
他對亞馬遜和谷歌那種嚴格的句法結構不屑一顧。在這用這兩款服務時,你必須按照這樣的句法來表達:"Alexa,問問 Daily Horoscopes 關於金牛座的情況。" 或者 "OK Google,讓我跟 Todoist 說話。" 他更希望等到你可以隨心所欲地表達時再這樣做。與以往一樣,蘋果還是保持著寧缺毋濫的態度。
句法問題最終還要回歸到阿賽洛聽到薩曼莎和托姆佈雷在屏幕上墜入愛河時得出的結論。即便是在科幻電影裡,最好的電腦也應該能像人一樣自然說話。" 它可以正確地停頓,使用正確的語調和平緩的語音。" 他說," 聲音裡有一點金屬味。" 他希望開發這樣一款產品,讓所有人都能使用它。每當你要查看進度時,直接問 Siri 就行瞭。(編譯 / 長歌)