谷歌黑科技相機：人類第一次失去對 AI 的控制

智東西（公眾號：zhidxcom）

文 | Lina

昨天凌晨，谷歌在一年一度的秋季硬件發佈上一口氣連發 7 款新品，Pixel 2 手機、筆記本、翻譯耳機、智能音箱、AI 相機 …… 這場 " 硬（件）貨十足 " 的發佈會貫穿著谷歌 " 人工智能 + 軟件 + 硬件 "（AI+Software+Hardware）的中心思想。

Pixel 手機、音箱、筆記本一類的產品我們基本都在此前的爆料中有所耳聞，反倒是 AI 相機 Clips、無線翻譯耳機 Pixel Buds 等新奇有趣的 AI 新品讓人眼前一亮。

尤其是 Clips，這是一臺可以通過人工智能技術自動選擇場景、自動拍攝錄像、自動保存的小型相機，你隻需要把它打開瞭放在一邊，它就能自動為你記錄下它認為有意義的瞬間。

一、一款主打傢庭場景的 AI 相機

Clips 是一款隻有 5 厘米高、60 克重的方形相機，售價 249 美元（折合 1657 元人民幣）非常小，也非常輕便。全機上下隻有一個快門按鈕、一個鏡頭、一個拍攝時會亮起的 LED 燈，套上自帶的塑料外殼後可以立在、掛在、勾在傢庭裡的任何一個角落。

通過扭動鏡頭打開相機後，它能以 15 幀每秒的頻率錄制拍攝，擁有一個 1200 萬像素的傳感器與 130 度的廣角鏡頭，能夠自動對焦，有 16GB 的存儲空間，電池續航時間為 3 小時——不過，沒有內置麥克風。

最重要的是，當你把 Clips 放在客廳裡，擁有 AI 技術加成的它會自動 " 觀察 " 鏡頭裡的世界，當出現有趣的場景——比如你傢的小 baby 晃晃悠悠蹣跚學步，又或是傢裡的小奶貓饒有興趣地玩著線頭——時，自動開啟錄制拍攝，錄出幾秒到十幾秒不等的的視頻（而短視頻片段在英語中就叫 "Clips"，谷歌起名字一向這麼耿直），用戶可以選擇在手機 APP 上將這些段視頻剪輯、導出為視頻、照片、GIF、或是動態照片。

谷歌將這款相機的場景定位是傢庭——更準確來說，是室內環境中的嬰幼兒跟寵物。當你想要專心陪孩子玩耍，又或是上班外出錯過瞭精彩瞬間時為你留下這一刻。

而對於那些擔心自己隱私安全的用戶，谷歌表示，整個機器學習的拍攝、計算、存儲過程都是在相機終端進行，和網絡沒有任何數據傳輸。隻有當你想要導出照片時，才需要在手機上下載谷歌 App，在 App 內選擇編輯、導出、或者刪除。

Clips 可以跟谷歌親兒子 Pixel 手機配合使用，也適配於三星 S7/8，以及 iPhone 6/7/8 等機型。不過 Clips 產品主管 Juston Payne 反復強調，Clip 不是 Pixel 手機的附件，也不是任何東西的附件。Clips 是一臺獨立的相機，跟其他所有的數碼相機一樣。

二、用 AI 自動尋找 " 有趣 " 的場景

正如前文所說，Clips 將會關註 " 有趣 " 的場景，暫時為止它認為有趣的事物包括：人臉、寵物。

你可以把 Clips 的 " 思維 " 過程想象成這樣：它睜開眼睛，看著眼前的世界。接著問自己一系列問題，" 這個世界裡有臉嗎？－這是我認識的臉嗎？－這張臉上眼睛是睜開的嗎？是微笑著的嗎？－這裡的光線足夠充足嗎？－這個鏡頭模糊嗎？……" 最終確保照出來的片段是好的、值得拍攝的。

而需要 Clips 自主判斷這些內容，自然少不瞭我們天天都在提的機器學習。

正如其他的每個 AI 模型都需要接受大量數據訓練一樣，Clips 使用的模型也需要。但是 Clips 面臨著一個艱難的問題——沒有合適的訓練數據。

世界上有大量早已標記好的數據集，拿 ImageNet 來說，裡面成千上萬張帶有 " 貓 " 或者 " 狗 " 標記的圖片數據可以迅速訓練出一個能辨別貓狗的神經網絡，但是，世界上沒有任何一套機器訓練數據集裡有 " 這有一個嬰兒在地板上爬的短視頻，這是他父母想要保存的片段 "、" 那兒有一段小貓在玩毛線球的視頻，看上去真可愛 " 的帶標記數據。沒有訓練數據，AI 神經網絡無從談起。

不過，谷歌畢竟是谷歌，它一方面有著強大的研究團隊，而另一方面，別忘瞭它擁有世界上最大的在線視頻網站—— YouTube。

目前 YouTube 上已經有超過 10 億個在線視頻，並且用戶每日還持續上傳超過 30 萬個新視頻，這些視頻都是絕佳的機器學習素材（尤其是對於寵物貓而言）。谷歌的 Clips 團隊與一大批視頻編輯者與圖像評估團隊合作，通過人工標記、評分視頻的方式為 Clips 提供訓練素材。

而且，在今年 5 月的 I/O 開發者大會上，谷歌就宣佈升級瞭 Google Photo 圖片庫軟件：現在有瞭人工智能與機器學習技術的加碼，Google Photo 可以自動幫你在眾多照片中選出清晰、不重復、照得好的照片。

隨著使用得越來越多，Clips 也會越來越聰明，慢慢地自己 " 學會 " 哪些是你關心的人、哪些是你關心的場景。下次你帶著孩子去公園一起玩的時候，Clips 就隻會專註於拍你傢孩子，而不會被別的小孩的臉 " 分心 "。

Clips 產品主管 Juston Payne 表示，現在 Clips 已經非常擅長尋找人和寵物的圖像瞭（或者更確切地說，是寵物貓、寵物狗——寵物豬暫時不在考慮范圍）。但它還隻是局限在傢庭場景，當你外出度假、旅行、跳傘、潛水時，Clips 就無法判斷哪些圖像是值得拍攝的瞭。

未來，谷歌計劃在更多的終端設備上拓展 AI 功能，以支持更多的應用場景。Clips 是谷歌這個 " 萬物 AI" 宏偉計劃的一個小嘗試，它還很貴，而且沒有那麼聰明，但它已經是第一步瞭。

三、隱私憂慮、端智能與 VPU

當然，面對這麼一個由 AI 全自主控制的相機，隱私問題可以說是房間裡那隻粉紅色的大象，你完全無法避而不談它。

面對這個問題，谷歌表示：" 我們知道隱私真的很重要，所以我們一直在為 Clips 的用戶、他們的傢人、朋友們考慮。所以 Clips 是根據以下原則進行設計的：

1、Clips 看起來像一個相機——這就意味著所有看到它的人都知道它是一個相機——當 Clips 開啟時，有一個 LED 燈將會亮起，讓每個人都知道它正在運行當中。

2、當你在室內環境裡，和你的傢人或者親密朋友在一起時效果最佳。因為 Clips 能夠自動學會識別與你相關的人物的臉，並幫助您捕獲更多時刻。

3、最後，整個機器學習的拍攝、計算、存儲過程都是在相機終端進行，和網絡沒有任何數據傳輸。跟所有相機一樣，隻有當你想要導出照片時，數據才會離開你的設備。"

至於這三點能不能說服用戶 …… 那就不好說瞭。

四、VPU 又是何許人也？

隱私問題放一邊，上文提到的第三點非常有趣。為瞭達到在相機終端上就能實行圖像的計算、識別、不需要連接到雲的能力，Clips 裡內置瞭英特爾旗下的 Movidius Myriad 2 VPU 視覺處理芯片。

在這裡解釋一下，Movidius 是 2016 年 9 月被英特爾收購的矽谷公司、Myriad 2 是這塊芯片的名字，Myriad 1 曾經被用在谷歌的 Tango 平板裡、VPU 則是 Vision Processing Unit 視覺處理單元的縮寫。

正如智東西此前一系列關於 AI 芯片的報道中提到的，現在的芯片 / 處理器實際上所指的是一個 " 處理器包 " 封裝在一起，這個計算包專業一點說叫 SoC（System-on-a-Chip），高大上的說法是 " 計算平臺 "。

根據分工不同，很多專用功能的處理單元加進來，比如我們最熟悉的是 GPU，現在這個包裡的獨立單元數量已經越來越大，比如 ISP（圖像處理）、Modem（通信模塊）、DSP（數字信號處理）、以及蘋果的 A11、麒麟 970 中加入的神經網絡引擎、NPU 等（AI 應用）不同的數據進來，交給不同特長的計算模塊來處理將會得到更好的效果、更高的能效比。

不過，雖然都是 "U"，但 VPU 與 GPU、NPU 不同。它不是（或者說不隻是）一個模塊，它本身就是一個 SoC，內部集成有多個主控 RISC 的 CPU、許多硬件加速器單元和矢量處理器陣列，專門為視覺海量像素設計的高性能影像信號處理器 ( ISP ) ，以及豐富的高速外圍接口。

VPU 針對視覺處理應用而設計，在性能、功耗和功能性方面都有特別的強化，使之更貼近於實際的應用需求。尤其是在功耗方面，按照 Movidius CEO Remi El-Ouazzane 的說法，相比能夠提供同等效果的 GPU，Myriad 2 的功耗低瞭最少 10 倍——對於 Clips 這樣一個重量僅為 60 克的小相機來說，功耗與續航問題必然是重中之重。

Myriad 2 的芯片設計包括 12 個 SHAVE 128 位處理器＋SIPP 過濾器，前者對原始影像數據做計算處理，每顆處理器都運作在 600MHz 的頻率下，而且有超頻潛能；後者是 SIPP 是（Streaming Inline Processing Pipeline filters）硬件加速期的縮寫，可完成一些預設的影像處理任務，比如將來自不同類型攝像頭的數據融合到一起，或者將多個視頻內容接合到一起。此外，Myriad 2 VPU 上還有 2 個 32 位 RISC 處理器用於芯片管理，有效降低延遲。

( Myriad 2 的其他參數 )

當然，除瞭傳統的影像處理能力外，Myriad 2 最重要的就是 AI 能力，對於 Clips 來說，也就是相機的智能理解能力。除瞭芯片本身，Movidius 還設計一系列的補充算法與 SDK，使得 Myriad 2 支持 3D 建模和掃描、影像搜索、室內導航、以及手勢輸入、臉部識別、實物探測等——想必這次和谷歌的合作也使得兩傢共同研發瞭更多功能。

基於這樣的架構設計，Myriad 2 芯片采用臺積電 28 納米工藝制造、面積是 6.5mm、厚度 1mm，支持六個 60 幀全高清視頻信號輸入，而功耗在 1.2W 以內。

其實，這塊 Myriad 2 芯片在 2014 年就發佈瞭，大疆 Phantom 4 無人機中就集成瞭這塊芯片。而且英特爾也在前不久（今年 8 月）推出瞭 Movidius Myriad X 新版 VOU，性能效果都更為強大，至於為什麼沒有用在 Clips 上，可能是基於成本考慮、也可能是功耗考慮。（目前 Myriad 2 每塊售價已經降到瞭 10 美元以下）

結語：AI 相機僅僅隻是個開始

Clips 看似個毫不起眼的小玩意兒，但不知道大傢有沒有意識到，它是有史以來第一款完全由 AI 進行主動決策的消費級電子產品。從被打開的一刻起，人類就對它失去瞭控制，我們不知道它會選擇什麼場景進行拍攝、也不知道它為什麼選擇這個場景進行拍攝——就如同現在深度學習正在使用的種種神經網絡一樣，我們知道它們的效果非常好，但我們至今不知道為什麼。

這既讓人興奮，又讓人不免有些恐慌。

可以看得出來，端智能、端 AI 已經是大勢所趨，無論是軟件上各種機器學習算法的不斷成熟，還是硬件上各類高性能低功耗 AI 芯片的誕生，無不推動著 " 萬物 AI" 的腳步。繼谷歌 Clips 這款 AI 相機之後，我們不難想象還有 AI 咖啡機、AI 麥克風、甚至 AI 耳環、AI 皮帶的誕生。Clips 的市場反饋好壞隻會加速或暫緩這一趨勢，但終究無法終止它，這僅僅隻是個開始。

意見反饋

谷歌黑科技相機：人類第一次失去對 AI 的控制