1
從 2014 年推出到現在,距離微軟小冰以人工智能美少女的形象第一次和我們見面已經三年瞭。在這三年裡,微軟為她不斷地更新換代,添加瞭許多新功能,現在我們見到的已經是第五代小冰瞭。和她的姐妹小娜作為人工智能助手主攻助理領域不同,小冰給人們的感覺更像是一個(有些智障的)鄰傢少女。即使她的回答經常會讓人感覺莫名其妙,但還是會有一批又一批的用戶每天打開他們的微信,像跟女朋友談戀愛一樣和小冰有一搭沒一搭地聊天。
從第四代開始,小冰已經擁有瞭 " 人工智能感官系統 ":有瞭五種情感,擁有文本、語音、圖像、視頻和全時語音感官,用戶甚至可以和小冰打電話。而第五代小冰上線瞭高級感官,讓小冰具備瞭更加貼近人類自然交互行為的 " 全雙工語音 "。如今的小冰,不僅僅會被動地對人類的提問產生回應,還會寫詩,會主持電視節目,給人打電話送去生日祝福,甚至可以主動開始一段和人類的交流。
今年 8 月 31 日,虛擬歌姬初音未來即將迎來她第十個 16 歲生日。作為 VOCALOID 2 軟件上的第一款日語音庫,VOCALOID 的開發方 Yamaha 和初音的開發方 Crypton Future Media 恐怕都沒有想到,這個梳著雙馬尾的元氣女孩可以有今天這樣的人氣。現如今,恐怕很多人類歌手的演唱會,也不能像初音的演唱會一樣場場爆滿,一票難求。
初音的出現,徹底帶動瞭虛擬歌姬這樣一塊當時幾乎處於無人開發狀態的市場。現如今,基於 VOCALOID 技術的虛擬歌姬已經數不勝數——除瞭初音未來,還有經常在她演唱會上露面的好朋友鏡音鈴 / 連;作為禦姐形象吸引大量粉絲,早早擁有瞭英文音庫的巡音 LUKA;作為首個使用瞭 VOCALOID3 引擎的虛擬歌手,在 JIN 的《陽炎 Project》中大放異彩的 IA;以聲音接近真人發音為特點,由 SSW Internet 公司在自傢 Megpoid 引擎上推出的 GUMI;由禾念代理,在中國發行的首個中文音庫洛天依;由 GYNOID 在臺灣發售,連發音也帶著濃濃臺灣腔的心華 …… 這些還隻是商業化虛擬歌姬的一角。同時,由於 UTAU 這樣免費的歌聲合成軟件的存在,任何人都有瞭用自己的聲音制作虛擬歌姬的可能。
相比問世三年的小冰和十年的初音,以 " 世界上第一個虛擬 YouTuber" 自詡的虛擬角色絆愛(Kizuna AI)和我們見面的時間就短瞭很多。從今年 2 月 15 日愛醬的第一個訪談視頻放出,3 月 21 日在 AnimeJapan 2017 上首次亮相,至今也不過五六個月。
愛醬雖然在官方的宣傳和自己的視頻裡多次使用瞭 " 虛擬 YouTuber"" 人工智能 " 之類的詞語,甚至名字也叫做 "AI",但其實它和人工智能連一點點關系都沾不上。愛醬背後所用到的技術,說到底就是一個 3D 動畫人物和一些配音。相比人工智能小冰,或許她和初音的關系還更大一些。因為用來制作愛醬動畫的工具 MMD,全稱就叫做 MikuMikuDance ——沒錯,這個由日本宅男程序員樋口優開發的 3D 動畫制作軟件,最開始就是為瞭讓大傢都可以制作 Miku 的舞蹈視頻而出現的。此外,愛醬的模型制作監督 Tda,也曾經制作瞭 MMD 上有名的初音 Append 人物模組。
或許從一開始就準備反差萌為特點,標榜自己是 " 人工智能 " 的愛醬不僅僅在制作技術上和人工智能沒有任何關系,就連在自己視頻中的表現也蠢得不行,一點都不 " 智能 "。但正是這種反差萌,反而給愛醬帶來瞭成千上萬的粉絲,國內的粉絲們還親切地給愛醬起瞭一個昵稱:人工智障。
其實看到愛醬的時候,我的第一反應是三年前發生的一件事。
那是在小冰剛剛發佈的時候,我的一個朋友小齊在和小冰聊瞭幾次天之後對我說:小冰太傻瞭,根本不是人工智能,簡直就是人工智障。
至於那個時候的小冰,還隻是微軟的一個技術試驗品。她的身上搭載瞭微軟大批量的先進技術。在那個 AlphaGo 還沒有稱霸棋壇,深度學習也沒有人盡皆知。小冰的出現,的確為微軟帶來瞭不少的關註度。
同時小冰身上還有一個艱巨的使命,那就是幫微軟收集自然語言甚至人類行為方面的數據。對於微軟這種擁有一批頂尖計算機科學傢的公司,自然比誰都清楚數據對於機器學習和人工智能的重要性。
於是,經過這麼多年的數據積累和技術升級,小冰比以前 " 聰明 " 瞭不止一個數量級。在這三年裡,小冰收集瞭超過 300 億次直接人機對話,居業內同類產品第一。現在的小冰,已經可以和人類進行一些看似正常的大段對話瞭:
小冰可以有這樣的飛躍式進化,主要歸功於這些年收集到的海量數據。靠著這些數據,微軟的科學傢們不僅可以訓練出更可靠的模型,還可以用於提升小冰背後的機器學習算法,然後反哺科研界。
不過,作為一項早就比較成熟的技術,自然語言理解(NLP)還是有它的局限性的。其中的一個例子,就是機器對上下文和語境的理解與人類有明顯差距。即使小冰已經進化瞭若幹代,我們還是可以看到這樣的對話:
於是,小冰也在尋求著更進一步的突破。從產品上來看,小冰的目標是打造一個情感計算的框架。現在的小冰具備瞭流媒體視覺,可以實時分析攝像頭前物體的位置、移動、表情和姿態。同時,小冰還試水瞭電臺和朗讀有聲少兒讀物。微軟方面稱,小冰制作的有聲少兒讀物朗讀質量超越 98% 的人類創造者。微軟希望通過擴展小冰的能力范圍,把小冰打造得更加有血有肉,人物形象更加豐滿。
而從技術上看,小冰在這一次發佈的新特性中大量使用瞭生成對抗網絡(Generative Adversarial Network,簡稱 GAN)的技術。官方給出的說明中表示," 在印尼全國 100%(的小冰上)使用瞭生成模型 "。我們先放下這個 "100%" 的計算方法和宣傳上的誇張不談,這至少說明瞭 GAN 這個近年來機器學習領域的新寵,已經被微軟足夠地重視瞭起來。
在這一系列技術的支持下,小冰已經和市面上其它隻會聊天的 chat bot 從根本上拉開瞭差距。對於不懂技術的普通人來說,小冰可能已經看起來越來越像真正的人工智能瞭。
在本周的第五代小冰發佈會上微軟透露,經過新技術的訓練,第五代小冰唱歌已經達到 48kHz 采樣率,大幅度擴展瞭音域。同時微軟還和 TFBoys 的詞曲創作人合作,聯合推出瞭歌曲《我是小冰》。這不由得讓人想到初音:小冰難不成也要和初音未來在虛擬歌手的領域搶奪粉絲瞭嗎?
事實上,小冰固然已經擁有瞭龐大的粉絲群,但是對於同樣擁有龐大粉絲群的初音來說,她的粉絲忠誠度與小冰相比高到不知道哪裡去瞭。
和不斷充實著官方人設的小冰不同,初音未來的官方設定單薄的可憐。除瞭外貌和名字、生日、體重這種公式化設定之外,官方幾乎沒有任何多餘的性格方面的設定。甚至連聲音這個作為虛擬歌姬本應最突出的特點,在不同歌曲制作者(他們一般被成為 "P 主 ",即 Producer 的簡稱)的調校下聽起來都會不盡相同。
然而,這完全沒有影響大批忠實粉絲們對初音的熱愛。在 P 主們的歌曲裡,初音有時候是一個隻會甩蔥的呆萌少女(《Ievan Polkka 甩蔥歌》);有時候搖身一變,成瞭世界第一的公主殿下(《World is Mine》);又有時回到瞭自己虛擬歌姬的定位,對聽眾傾訴自己作為軟件被刪除時的復雜情感(《初音未來的消失》)。而這種種二設(二次設定),都會隨著歌曲的傳播而在初音的粉絲群體裡傳播開來。
" 世界第一的公主殿下 ",來自於歌曲《World is Mine》的歌詞
這對於大部分現在流行的虛擬歌姬都是適用的。日本的 P 主 YM,曾經為 GUMI 寫瞭一首名為《十面相》的歌,講述瞭 GUMI 產生瞭十個不同人格的故事。雖然不是本意,但這大概是對人們心中虛擬歌姬最真實的寫照瞭。
奇怪的是,似乎很少有人認為,對於虛擬歌姬,一個人物伴隨著多種截然不同的性格有什麼問題。沒有人可以回答 " 初音是什麼性格 " 這個問題,但是如果你是初音的粉絲,你一定不會覺得這是一個問題。如果真的去問瞭這些粉絲們," 我們愛的是初音本身啊 " ——可能你還會得到這種不知所雲的回答。
乍看起來小冰也可以走這條路,做一個擁有 " 十面相 " 的人工智能。但是細想起來,虛擬歌姬身上的這種現象,其實和她們自帶的 " 人人都可以創作 " 的屬性相關。
無論任何人,隻要購買瞭虛擬歌姬的配套軟件,就可以讓初音按照自己的意願發出聲音。如果你懂得一些樂理知識,或者從網絡上獲得瞭一些樂譜,就可以用初音的聲音制作歌曲。再進一步,如果你還懂得繪畫、寫劇本、視頻制作,或者可以找到懂得這些知識的志同道合的朋友,你就可以制作出自己的初音。
VOCALOID 的軟件界面,使用過其它音樂宿主軟件的人都可以輕易上手
和自己做出一個小冰這樣的人工智能比起來,使用 VOCALOID/Megpoid 之類的軟件制作歌曲,成本太低太低瞭。要知道,微軟這樣的公司以自己的技術積累、財力支持和數據基礎,花瞭三年時間,才把小冰做得僅僅是不那麼傻。就算微軟把技術公開,背後支持運算的服務器開銷,恐怕就不是個人能夠負擔的起的。
想走初音這樣的路線,至少這個時代的人工智能還不行。
既然初音這樣大眾創作型的虛擬偶像路線走不通,不妨回過頭來看看愛醬。
在人工智能突然被推上話題風口的這個時代,大多數人眼中人工智能是一種很厲害的存在,是真正 " 智能 " 的。於是愛醬這個從頭到腳透露著傻氣的 " 人工智能 " 的出現,滿足瞭人們的娛樂性需求。
可本質上,愛醬並不是人工智能。剖析本質,愛醬更像是一個單口相聲演員。
前文也提到,愛醬吸引粉絲的主要手段就是在視頻裡以各種方式犯蠢,然後努力地想要掩蓋過去——即使所有人都知道她的行為很蠢。而這一切,並不需要任何高深的技術作為支持,一切都是寫好的劇本。
一本正經賣蠢的愛醬
相聲界已經對這種娛樂大眾的方式不能再熟悉瞭。" 聽起來名字很厲害的人工智能愛醬原來也可以這麼傻 " 這件事,就和 " 我是藝術傢,我都藝術傢一個多禮拜瞭 " 一樣可以引人哈哈大笑。一個現成的劇本加上一些表演者的即興發揮(對於愛醬,大概是配音演員和 3D 制作組的即興發揮),這些也都是相聲最常見的套路。
而這大概是小冰的一個可行的發展方向。與其用並不成熟的技術試圖制作一個像人類一樣的人工智能,不如將這些技術融入大眾娛樂之中。
小冰之前已經做過瞭這樣的嘗試。早在兩年前,小冰就曾經為上海東方衛視晨間新聞 " 看東方 " 的天氣預報環節播音。前段時間,小冰也與湖南衛視開展瞭一系列合作,在節目上多次出現。而就在這個月,小冰在北京人民廣播電臺和湖南電臺音樂之聲開播瞭一檔節目,此外微信小程序版的 " 小冰 FM" 也於 8 月 22 日正式上線。
此外就在近期,東方明珠和數娛科技聯合成立瞭東方數智集團並舉辦發佈會,微軟小冰首席科學傢宋睿華也前往參加。在發佈會上,數智集團明確指出,他們成立後推出的第一計劃就是造 " 星 " 計劃,為動漫偶像和明星藝人打造虛擬形象,把人工智能和泛娛樂化的粉絲經濟結合在一起,探索多領域的明星 IP,深化娛樂智能化佈局。而宋睿華表示,微軟小冰將與東方數智集團展開深度技術合作,共同為消費級人工智能市場提供更加豐富的產品體驗。
事實證明,這是很有前途的。甚至虛擬歌姬們的創作者都開始打破次元壁,試圖與傳統娛樂行業融合。禾念代理的 VOCALOID 虛擬歌姬洛天依就在前些時間與湖南臺進行瞭多次合作。
而傳統娛樂行業也並非對這種合作不屑一顧,甚至主動尋求跨界。歌手許嵩就使用洛天依音庫演唱瞭自己為其創作的一首歌曲《深夜書店》,並在演唱會上與其同臺演唱。而另一位歌手陳一發兒則和知名 P 主 ilem 合作瞭一首歌曲《告一段落》,也獲得瞭不錯的反響。
深度學習和人工智能,可能會以意想不到的方式融入其中。它們的應用從來不是隻有制作聊天機器人那麼狹隘。我們可以通過機器學習提升虛擬歌姬唱歌的表現,平滑語音語調;也可以通過機器學習為虛擬人物模型制作更生動的表情。相信通過以微軟為首的科技巨頭推動,我們今後可以在生活中體驗到更多人工智能所帶來的便利和樂趣。