谷歌黑科技相機:人類第一次失去對 AI 的控制

10-06

智東西(公眾號:zhidxcom)

文 | Lina

昨天凌晨,谷歌在一年一度的秋季硬件發佈上一口氣連發 7 款新品,Pixel 2 手機、筆記本、翻譯耳機、智能音箱、AI 相機 …… 這場 " 硬(件)貨十足 " 的發佈會貫穿著谷歌 " 人工智能 + 軟件 + 硬件 "(AI+Software+Hardware)的中心思想。

Pixel 手機、音箱、筆記本一類的產品我們基本都在此前的爆料中有所耳聞,反倒是 AI 相機 Clips、無線翻譯耳機 Pixel Buds 等新奇有趣的 AI 新品讓人眼前一亮。

尤其是 Clips,這是一臺可以通過人工智能技術自動選擇場景、自動拍攝錄像、自動保存的小型相機,你隻需要把它打開瞭放在一邊,它就能自動為你記錄下它認為有意義的瞬間。

一、一款主打傢庭場景的 AI 相機

Clips 是一款隻有 5 厘米高、60 克重的方形相機,售價 249 美元(折合 1657 元人民幣)非常小,也非常輕便。全機上下隻有一個快門按鈕、一個鏡頭、一個拍攝時會亮起的 LED 燈,套上自帶的塑料外殼後可以立在、掛在、勾在傢庭裡的任何一個角落。

通過扭動鏡頭打開相機後,它能以 15 幀每秒的頻率錄制拍攝,擁有一個 1200 萬像素的傳感器與 130 度的廣角鏡頭,能夠自動對焦,有 16GB 的存儲空間,電池續航時間為 3 小時——不過,沒有內置麥克風。

最重要的是,當你把 Clips 放在客廳裡,擁有 AI 技術加成的它會自動 " 觀察 " 鏡頭裡的世界,當出現有趣的場景——比如你傢的小 baby 晃晃悠悠蹣跚學步,又或是傢裡的小奶貓饒有興趣地玩著線頭——時,自動開啟錄制拍攝,錄出幾秒到十幾秒不等的的視頻(而短視頻片段在英語中就叫 "Clips",谷歌起名字一向這麼耿直),用戶可以選擇在手機 APP 上將這些段視頻剪輯、導出為視頻、照片、GIF、或是動態照片。

谷歌將這款相機的場景定位是傢庭——更準確來說,是室內環境中的嬰幼兒跟寵物。當你想要專心陪孩子玩耍,又或是上班外出錯過瞭精彩瞬間時為你留下這一刻。

而對於那些擔心自己隱私安全的用戶,谷歌表示,整個機器學習的拍攝、計算、存儲過程都是在相機終端進行,和網絡沒有任何數據傳輸。隻有當你想要導出照片時,才需要在手機上下載谷歌 App,在 App 內選擇編輯、導出、或者刪除。

Clips 可以跟谷歌親兒子 Pixel 手機配合使用,也適配於三星 S7/8,以及 iPhone 6/7/8 等機型。不過 Clips 產品主管 Juston Payne 反復強調,Clip 不是 Pixel 手機的附件,也不是任何東西的附件。Clips 是一臺獨立的相機,跟其他所有的數碼相機一樣。

二、用 AI 自動尋找 " 有趣 " 的場景

正如前文所說,Clips 將會關註 " 有趣 " 的場景,暫時為止它認為有趣的事物包括:人臉、寵物。

你可以把 Clips 的 " 思維 " 過程想象成這樣:它睜開眼睛,看著眼前的世界。接著問自己一系列問題," 這個世界裡有臉嗎?-這是我認識的臉嗎?-這張臉上眼睛是睜開的嗎?是微笑著的嗎?-這裡的光線足夠充足嗎?-這個鏡頭模糊嗎?……" 最終確保照出來的片段是好的、值得拍攝的。

而需要 Clips 自主判斷這些內容,自然少不瞭我們天天都在提的機器學習。

正如其他的每個 AI 模型都需要接受大量數據訓練一樣,Clips 使用的模型也需要。但是 Clips 面臨著一個艱難的問題——沒有合適的訓練數據。

世界上有大量早已標記好的數據集,拿 ImageNet 來說,裡面成千上萬張帶有 " 貓 " 或者 " 狗 " 標記的圖片數據可以迅速訓練出一個能辨別貓狗的神經網絡,但是,世界上沒有任何一套機器訓練數據集裡有 " 這有一個嬰兒在地板上爬的短視頻,這是他父母想要保存的片段 "、" 那兒有一段小貓在玩毛線球的視頻,看上去真可愛 " 的帶標記數據。沒有訓練數據,AI 神經網絡無從談起。

不過,谷歌畢竟是谷歌,它一方面有著強大的研究團隊,而另一方面,別忘瞭它擁有世界上最大的在線視頻網站—— YouTube。

目前 YouTube 上已經有超過 10 億個在線視頻,並且用戶每日還持續上傳超過 30 萬個新視頻,這些視頻都是絕佳的機器學習素材(尤其是對於寵物貓而言)。谷歌的 Clips 團隊與一大批視頻編輯者與圖像評估團隊合作,通過人工標記、評分視頻的方式為 Clips 提供訓練素材。

而且,在今年 5 月的 I/O 開發者大會上,谷歌就宣佈升級瞭 Google Photo 圖片庫軟件:現在有瞭人工智能與機器學習技術的加碼,Google Photo 可以自動幫你在眾多照片中選出清晰、不重復、照得好的照片。

隨著使用得越來越多,Clips 也會越來越聰明,慢慢地自己 " 學會 " 哪些是你關心的人、哪些是你關心的場景。下次你帶著孩子去公園一起玩的時候,Clips 就隻會專註於拍你傢孩子,而不會被別的小孩的臉 " 分心 "。

Clips 產品主管 Juston Payne 表示,現在 Clips 已經非常擅長尋找人和寵物的圖像瞭(或者更確切地說,是寵物貓、寵物狗——寵物豬暫時不在考慮范圍)。但它還隻是局限在傢庭場景,當你外出度假、旅行、跳傘、潛水時,Clips 就無法判斷哪些圖像是值得拍攝的瞭。

未來,谷歌計劃在更多的終端設備上拓展 AI 功能,以支持更多的應用場景。Clips 是谷歌這個 " 萬物 AI" 宏偉計劃的一個小嘗試,它還很貴,而且沒有那麼聰明,但它已經是第一步瞭。

三、隱私憂慮、端智能與 VPU

當然,面對這麼一個由 AI 全自主控制的相機,隱私問題可以說是房間裡那隻粉紅色的大象,你完全無法避而不談它。

面對這個問題,谷歌表示:" 我們知道隱私真的很重要,所以我們一直在為 Clips 的用戶、他們的傢人、朋友們考慮。所以 Clips 是根據以下原則進行設計的:

1、Clips 看起來像一個相機——這就意味著所有看到它的人都知道它是一個相機——當 Clips 開啟時,有一個 LED 燈將會亮起,讓每個人都知道它正在運行當中。

2、當你在室內環境裡,和你的傢人或者親密朋友在一起時效果最佳。因為 Clips 能夠自動學會識別與你相關的人物的臉,並幫助您捕獲更多時刻。

3、最後,整個機器學習的拍攝、計算、存儲過程都是在相機終端進行,和網絡沒有任何數據傳輸。跟所有相機一樣,隻有當你想要導出照片時,數據才會離開你的設備。"

至於這三點能不能說服用戶 …… 那就不好說瞭。

四、VPU 又是何許人也?

隱私問題放一邊,上文提到的第三點非常有趣。為瞭達到在相機終端上就能實行圖像的計算、識別、不需要連接到雲的能力,Clips 裡內置瞭英特爾旗下的 Movidius Myriad 2 VPU 視覺處理芯片。

在這裡解釋一下,Movidius 是 2016 年 9 月被英特爾收購的矽谷公司、Myriad 2 是這塊芯片的名字,Myriad 1 曾經被用在谷歌的 Tango 平板裡、VPU 則是 Vision Processing Unit 視覺處理單元的縮寫。

正如智東西此前一系列關於 AI 芯片的報道中提到的,現在的芯片 / 處理器實際上所指的是一個 " 處理器包 " 封裝在一起,這個計算包專業一點說叫 SoC(System-on-a-Chip),高大上的說法是 " 計算平臺 "。

根據分工不同,很多專用功能的處理單元加進來,比如我們最熟悉的是 GPU,現在這個包裡的獨立單元數量已經越來越大,比如 ISP(圖像處理)、Modem(通信模塊)、DSP(數字信號處理)、以及蘋果的 A11、麒麟 970 中加入的神經網絡引擎、NPU 等(AI 應用)不同的數據進來,交給不同特長的計算模塊來處理將會得到更好的效果、更高的能效比。

不過,雖然都是 "U",但 VPU 與 GPU、NPU 不同。它不是(或者說不隻是)一個模塊,它本身就是一個 SoC,內部集成有多個主控 RISC 的 CPU、許多硬件加速器單元和矢量處理器陣列,專門為視覺海量像素設計的高性能影像信號處理器 ( ISP ) ,以及豐富的高速外圍接口。

VPU 針對視覺處理應用而設計,在性能、功耗和功能性方面都有特別的強化,使之更貼近於實際的應用需求。尤其是在功耗方面,按照 Movidius CEO Remi El-Ouazzane 的說法,相比能夠提供同等效果的 GPU,Myriad 2 的功耗低瞭最少 10 倍——對於 Clips 這樣一個重量僅為 60 克的小相機來說,功耗與續航問題必然是重中之重。

Myriad 2 的芯片設計包括 12 個 SHAVE 128 位處理器+SIPP 過濾器,前者對原始影像數據做計算處理,每顆處理器都運作在 600MHz 的頻率下,而且有超頻潛能;後者是 SIPP 是(Streaming Inline Processing Pipeline filters)硬件加速期的縮寫,可完成一些預設的影像處理任務,比如將來自不同類型攝像頭的數據融合到一起,或者將多個視頻內容接合到一起。此外,Myriad 2 VPU 上還有 2 個 32 位 RISC 處理器用於芯片管理,有效降低延遲。

( Myriad 2 的其他參數 )

當然,除瞭傳統的影像處理能力外,Myriad 2 最重要的就是 AI 能力,對於 Clips 來說,也就是相機的智能理解能力。除瞭芯片本身,Movidius 還設計一系列的補充算法與 SDK,使得 Myriad 2 支持 3D 建模和掃描、影像搜索、室內導航、以及手勢輸入、臉部識別、實物探測等——想必這次和谷歌的合作也使得兩傢共同研發瞭更多功能。

基於這樣的架構設計,Myriad 2 芯片采用臺積電 28 納米工藝制造、面積是 6.5mm、厚度 1mm,支持六個 60 幀全高清視頻信號輸入,而功耗在 1.2W 以內。

其實,這塊 Myriad 2 芯片在 2014 年就發佈瞭,大疆 Phantom 4 無人機中就集成瞭這塊芯片。而且英特爾也在前不久(今年 8 月)推出瞭 Movidius Myriad X 新版 VOU,性能效果都更為強大,至於為什麼沒有用在 Clips 上,可能是基於成本考慮、也可能是功耗考慮。(目前 Myriad 2 每塊售價已經降到瞭 10 美元以下)

結語:AI 相機僅僅隻是個開始

Clips 看似個毫不起眼的小玩意兒,但不知道大傢有沒有意識到,它是有史以來第一款完全由 AI 進行主動決策的消費級電子產品。從被打開的一刻起,人類就對它失去瞭控制,我們不知道它會選擇什麼場景進行拍攝、也不知道它為什麼選擇這個場景進行拍攝——就如同現在深度學習正在使用的種種神經網絡一樣,我們知道它們的效果非常好,但我們至今不知道為什麼。

這既讓人興奮,又讓人不免有些恐慌。

可以看得出來,端智能、端 AI 已經是大勢所趨,無論是軟件上各種機器學習算法的不斷成熟,還是硬件上各類高性能低功耗 AI 芯片的誕生,無不推動著 " 萬物 AI" 的腳步。繼谷歌 Clips 這款 AI 相機之後,我們不難想象還有 AI 咖啡機、AI 麥克風、甚至 AI 耳環、AI 皮帶的誕生。Clips 的市場反饋好壞隻會加速或暫緩這一趨勢,但終究無法終止它,這僅僅隻是個開始。

精彩圖片
文章評論 相關閱讀
© 2016 看看新聞 http://www.kankannews.cc/