迪士尼也來研究人工智能，將 AI 用於動畫制作

雷鋒網 AI 科技評論按：眾所周知，卡耐基梅隆大學在計算機科學方面的研究名列前茅，而迪士尼有意將計算機科學技術引入動畫制作。他們與卡耐基梅隆大學合作建立的實驗室近日發表瞭一篇論文 A Deep Learning Approach for Generalized Speech Animation，利用深度學習的方法，來生成看起來自然的語音動畫。這篇論文已被 SIGGRAPH 2017 收錄。

他們引入瞭一種簡單而有效的深度學習方法，來自動生成看起來自然的，能夠與輸入語音同步的語音動畫。這種方法使用滑動窗口預測器，可以學習到從音位標簽輸入序列到嘴型運動的任意非線性映射，能精準捕捉自然動作和可視化的協同發音效果。

這種方法有幾個吸引人的特性：它能實時運行，隻需要進行非常少的參數調節，能很好的泛化到新的輸入語音序列，很容易編輯來創建風格化和情緒化的語音，並且與現有的動畫重定向方法兼容。

迪士尼實驗室表示，他們工作中的一個重點是開發出能高效生成語音動畫，並將其輕松地整合到現有作品中的方法。他們的論文中詳述瞭這種端到端的方法，其中包括機器學習的一些設計決策。在論文中，通過動畫片段中不同的人物和聲音，演示瞭泛化的語音動畫結果，包括唱歌和外語輸入。這種方法還可以根據用戶的語音輸入實時生成靈活的語音動畫。

雷鋒網 AI 科技評論將論文部分內容編譯如下：

前言

語音動畫是生成逼真的角色動畫中重要且耗時的一部分。從廣義上講，語音動畫是一種這樣的任務：改變圖形 ( 或機器人 ) 模型的面部特征，使嘴唇的動作與發出的聲音同步，形成一種在說話的感覺。作為人類，我們都是面部表情的專傢，糟糕的語音動畫可能會讓人分心，不愉快，產生困惑。例如，當看到的嘴型和聽到的聲音不一致時，有時會讓觀眾以為自己聽到的是另一種聲音（McGurk 和 MacDonald 的論文，1976）。對於實際的角色動畫來說，高保真語音動畫至關重要。

目前在電影和視頻遊戲制作中使用的傳統語音動畫方法通常趨向於兩個極端。一種做法是，高預算的產品通常會采用表演捕獲技術或雇一個大型的專業動畫制作團隊，這樣花費巨大，而且很難大規模復制。例如，目前沒有什麼好的生產方法，可以跨多種語言，劃算且高效地生成高質量的語音動畫。另一種做法是，對於成本低、內容多的產品，可能會使用簡單的唇形庫來快速生成質量相對較低的語音動畫。

最近，人們對開發出自動生成語音動畫的數據驅動方法越來越感興趣，以找到將這兩個極端折中的解決辦法（De Martino 等的論文，2006；Edwards 等的論文，2016；Taylor 等的論文，2012）。但是，以前的工作需要預先定義一組數量有限的唇形，還必須將這些唇形混合起來。簡單的混合函數限制瞭可以建模的視覺語音動態的復雜度。所以我們另辟蹊徑，計劃利用現代機器學習方法，直接從數據中學習視覺語音的復雜動態。

我們提出瞭一種自動生成語音動畫的深度學習方法，這種方法提供一種劃算且高效的手段，能大規模地生成高保真的語音動畫。例如，我們用 100 多個自由度，在電影特效制作級別的人臉模型上生成逼真的語音動畫。我們工作中的一個重點是開發一種高效的語音動畫方法，可以無縫地整合到現有的作品生產中。

我們的方法使用連續的深度學習滑動窗口預測器，這是受 Kim 等人在 2015 年發表的一篇論文的啟發。滑動窗口的方法意味著預測器能夠在持續講話的輸入語音描述和輸出視頻之間表示復雜的非線性回歸，也自然包括語境和協同發音效果。我們的研究結果展現瞭在 Kim 等人之前的決策樹方法上利用神經網絡深度學習方法帶來的改進。

使用重疊的滑動窗口更直接地將學習集中在捕捉局部范圍的語境和協同發音的效果上，比起循環神經網絡和 LSTM（Hochreiter 和 Schmidhuber 的論文，1997）等傳統的序列學習方法，更適合預測語音動畫。

使用機器學習的主要挑戰之一是：要以一種對所需的最終目標有用的方式，恰當地定義學習任務 ( 例如選擇什麼樣的輸入 / 輸出和訓練集 ) 。我們的目標是讓動畫師能輕松地將高保真的語音動畫合並到任何 rig 上，對任何說話者都適用，並且易於編輯和風格化。

我們將我們的機器學習任務定義為，從單個作為參照的說話者中，學會產生具有中性語音的高保真動畫。通過聚焦作為參照的面部和中性的語音，我們可以低成本且高效地收集一個全面的數據集，這個數據集能充分地描述出語音動畫的復雜特性。大的訓練數據集使得我們能夠使用現代機器學習方法，可靠地學習語音運動中細微的動態變化。

與之前程序化的生成語音動畫的研究相比（De Martino 等的論文，2006；Edwards 等的論文，2016；Taylo 等的論文，2012），我們的方法能直接從數據中學會自然的協同發音效果。

我們將輸入定義為文本 ( 音位標簽 ) ，意味著可以學習與說話者無關的從語境到語音動畫的映射。

我們隻需要現成的語音識別軟件自動將任何說話者的語音轉換成相應的音位描述。因此，我們的自動語音動畫可以泛化到任何說話者，任何形式的語音，甚至是其他語言。

局限性和未來的研究

主要的實際局限是，我們的動畫預測是依據 AAM 參數化法生成的參考面部來制作的。這使我們這種方法能泛化到任何內容，但是對特征進行重定位會引入潛在的錯誤源。當提出重定向模型的初始特征設置時，必須小心謹慎，以保持預測動畫的逼真度。幸運的是，對每個角色，這個預計算步驟隻需執行一次。展望未來，一個有意思的研究方向是使用真實的動畫數據來開發針對自動語音動畫的數據驅動重定位技術。

隻從中性的語音中學習，我們可以得到一個具有魯棒性的語音動畫模型，它可以泛化到任何語音內容。目前，在動畫中添加表情和情感還是藝術傢的工作，在未來，一個有趣的方向是從許多具有情感的語境（生氣、傷心等）生成的訓練數據中，訓練一個更大的神經網絡，使預測的面部動作更接近於真實的情感。

一個主要的挑戰是如何既劃算，又高效地收集一個綜合數據庫用於訓練。如果沒有一個夠全面的訓練集，使用現代機器學習技術會存在困難，因為深度學習等方法通常是嚴重欠約束的。可能的方向是大規模地收集雜亂的數據 ( 例如從公共視頻存儲庫中收集 ) ，或者開發能自適應地選擇收集哪種視頻的主動學習方法，以使總收集成本最小化。

進一步的泛化性可以從具有多種面部特征 ( 男性、女性、圓臉、方臉、肥胖、消瘦等 ) 的多個講話者中訓練一個語音動畫模型，並在預測的時候選擇與動畫角色模型最匹配的特征。這種方法可以根據人物的說話風格，泛化到不同臉型的不同面部表情。再一次說明，如何高效地收集綜合訓練集是一個很大的挑戰。

雷鋒網 AI 科技評論編譯

論文地址：http://www.yisongyue.com/publications/siggraph2017_speech.pdf

意見反饋

迪士尼也來研究人工智能，將 AI 用於動畫制作