雷鋒網按:大多數的軟件故障(Software bug)最多會讓你電腦死機,但絕對不會殺瞭你。不過,如果把場景換到自動駕駛汽車上,恐怕一旦出錯就是致命的瞭,畢竟誰也承受不瞭一輛疾馳的汽車在錯誤的時間做出錯誤的決定。
為瞭消除人們的擔心,研究人員專門開發瞭尋找軟件故障的方法,它能系統地揪出在線服務和自動駕駛汽車上深度學習算法的錯誤決定。
不過,想揪出 AI 的錯誤,還是得靠 AI。這種名為 DeepXplore 的糾錯方法背後至少有三套神經網絡(深度學習算法的基礎架構)。投入使用時,它們會相互進行對照檢查。DeepXplore 由哥倫比亞大學和裡海大學共同研發,其主要目標是解決優化問題,即在最大化神經網絡中神經元的激活數量和在不同的神經網絡中觸發盡可能多的沖突決策中找到最佳平衡。
當然,這種方法也有個前提,那就是假設大多數神經網絡在通常狀態下會做出正確選擇。隨後,DeepXplore 會自動對那些懷有異見的神經網絡進行 " 再教育 ",讓它們學會 " 隨大流 "。
" 這是一個完全不同的測試架構,它能找到自動駕駛系統和類似神經網絡系統中出現的數千種錯誤。" 裡海大學計算機科學助理教授 Yinzhi Cao 解釋道。
據雷鋒網瞭解,上月月底在上海舉辦的 SOSP 大會上,Cao 和他的同事就憑借一篇論文技驚四座並拿下大獎。該團隊的獲勝意味著業內對深度學習中潛藏的軟件故障越來越關心,像 DeepXplore 這樣的除錯工具未來將有一番新天地。
一般來說,深度學習算法在做特定任務時是有人幫助的,技術人員會在海量的訓練數據中標出正確答案幫 AI 進步。這樣的方式讓深度學習算法在某些測試數據集上準確率突破瞭 90%,在執行 Facebook 的人臉識別和谷歌翻譯的句型選擇時能派上大用場。當然,在這種使用場景下,出點小錯根本無傷大雅。
DeepXplore 找出瞭英偉達 DAVE-2 自動駕駛軟件的致命錯誤(右)
如果說以上的應用場景 AI 準確率已經能讓人滿意的話,在高速上行駛的大卡車恐怕就達不到要求瞭,畢竟一個小小的錯誤可能就會釀成大禍。
想讓政府監管者為自動駕駛汽車 " 放行 ",就必須向他們證明自動駕駛汽車能達到非常高的安全水準,或者說用隨機測試集考驗它時不會輕易被揪出那些會帶來災難的 " 極端情況 "。
" 我認為安全和可靠 AI 的理念與可解釋 AI 如出一轍。"Suman Jana 說道,他是哥倫比亞大學的計算機科學助理教授。"透明、可解釋和穩健這三大特點在機器學習系統與人類攜手工作或驅動自動駕駛汽車上路之前,還有許多地方有待提升。"
Jana 和 Cao 所在的團隊有許多研發者是軟件安全和除錯專傢,在他們的世界裡,即使是那些準確率高達 99% 的軟件也不安全,因為黑客會找到系統故障並趁虛而入。
不過,在當下的 AI 行業中,深度學習研究者將錯誤當成整個訓練過程中非常自然的一部分。因此,這個團隊非常適合擔起大任,成為 AI 世界中的 "Bug 獵人 ",幫算法找到一個除錯的綜合方案。
眼下,在為自動駕駛汽車的神經網絡除錯時,會用到一些相當沉悶且隨機的方法。其中就包括研究人員手動創造測試圖片並將它們 " 喂 " 給神經網絡,直到 AI 做出錯誤的選擇。第二種測試方案名為 " 敵對測試 ",AI 會自動生成一系列測試圖片,通過調整其中細節起到欺騙神經網絡的作用。
DeepXplore 的方法與以上兩種有所不同,它自動創造的圖片會讓三個或更多的神經網絡做出相互矛盾的決定。舉例來說,DeepXplore 會在一張圖片中找到幾盞燈光,其中兩個神經網絡會將它看作汽車,而第三個則會將它看作人臉。
與此同時,在測試中 DeepXplore 還會通過激活神經元和不同的神經網絡通路來提高神經元的覆蓋率。Cao 表示,這種方法取材於傳統的軟件測試方法——代碼覆蓋率。整個過程能讓神經網絡 100% 的活躍起來,或者說比上面提到的兩種測試方法活躍度提高 30%。
據雷鋒網瞭解,為瞭證明 DeepXplore 的實力,它找瞭 15 個頂級神經網絡練手。
果然,DeepXplore 直接揪出瞭數千個此前從未發現過的錯誤。測試所用的數據集涵蓋瞭自動駕駛汽車、自動目標識別和惡意軟件偽裝普通軟件等復雜的應用場景。
當然,現在的 DeepXplore 可不敢保證它已經找到瞭系統中的每一個 Bug,不過在測試大規模神經網絡上,它已經比此前的方案先進多瞭。
斯坦福大學也在專心研究 AI 除錯,它的方法和 DeepXplore 完全背道而馳,斯坦福更重視如何讓一小簇的神經元不受軟件故障的影響。眼下,兩種方案都處在未完成狀態,但在深度學習算法的除錯上,它們都是關鍵且潛力巨大的一步。