在最近的德州教堂槍機慘案中,有人把部分責任歸咎到美國空軍的頭上,因槍手曾在美國空軍服役,而美國空軍卻未能及時將槍手在服役期間的傢暴獲罪情況提交到聯邦調查局,導致槍手的暴力前科沒能及時錄入數據庫,從而通過瞭槍支購買的背景審查。
把這樁慘案怪罪到美國空軍的頭上未免有點牽強,說到底還是公共治安情報系統的不完善。不過,相信未來這樣的情況會得到得到改善,最起碼在美國空軍中是這樣的。
據報道,五角大樓國防情報部部門主任、美國空軍中將傑克沙納漢正在嘗試在項目中加入人工智能技術。在他啟動的 Maven 項目中,就利用瞭機器學習技術來檢視無人機拍攝視頻。
不僅僅是空軍,今年四月美國國防部還簽發瞭相關備忘錄,要成立 " 算法戰跨職能小組 "(AWCFT),推動國防部加速融入人工智能、大數據、機器學習等技術。
其實在國防、軍事中率先應用新技術並不是什麼新鮮事,反而在戰爭時期,還會刺激技術的發展。現在美俄兩國的 IT 技術,有很多都是靠冷戰時期打下的基礎。
戰爭與技術這一話題太過龐大,今天我們就單單從情報工作的角度來看,人工智能能發揮出怎樣的作用。
聽起來就很技術范的情報工作都是幹嘛?
" 情報 " 二字似乎天生和代碼有著聯系,我們在科幻電影中經常能看到黑客在鍵盤上飛舞手指,插上一隻小小的 U 盤就盜取瞭影響世界格局的關鍵信息。現實生活中,處在棱鏡門風波中心的斯諾登也是一副技術宅的形象,滿足瞭人們對黑客間諜的所有幻想。
實際上間諜、黑客、駭侵這些關鍵詞隻是情報工作中的一小部分,大部分情報工作的目的是為瞭保衛我們的安全而不是在拯救世界,在工作量上,檢閱各個渠道傳送來的數據,比傳說中的敲代碼黑系統要多得多。
而在近幾年,隨著移動互聯網基礎設施的普及,以及無人機、攝像頭等等傳感器的發展,情報工作要處理的數據量發生瞭一場大爆炸。
以往我們的獲知的情報信息大多是郵件、手寫文檔、電話錄音和照片等等,現在攝像頭和無人機正在源源不斷的向情報機構輸送著大量的圖片和視頻,社交網絡上每分秒都在誕生著成 TB 的信息。如果能及時對這些信息進行處理,把很多社會安全事件遏制在萌發階段。
隻可惜目前數據雖然在,我們卻沒有足夠的能力去處理,他們隻能默默沉睡在雲端,甚至會因儲存空間不夠而被覆蓋掉。
在這其中,人工智能能做些什麼?
讓計算機成為實習生
一個情報工作者的質樸夢想
在以上的情況中,我們能看到在情報工作中的第一步就是信息的處理——把大量的非結構化數據經過清洗和標註,把計算機采集的數據壓縮成能被人腦容納和理解的有用信息。
這些就可以利用上語音識別、文本識別、人臉識別等等較為基礎的技術。美國空軍正在研究的 Maven 項目,就是利用機器視覺識別無人機監控視頻的內容。實際在情報工作中,這些識別技術可以更加有的放矢——識別出某一類人的服裝面容、某些敏感信息的關鍵詞 / 發音等等。
當然這些隻是低階的數據信息篩選工作,理想狀況是,機器學習技術並不隻是盲目的對某一些關鍵詞和畫面做出屏蔽或警報,而是能夠對文本、視頻等等信息有一定的整體、動態化的理解,對現實情況有更加精準的理解,脫離機械的固化行為,成為情報工作人員的實習生。
繞不過棱鏡?
或許可以問問神奇的開源數據
簡單設想一下,做到這些工作應該會利用一些能理解長文本、有回溯能力的算法,比如 LSTM。但想讓機器學習在情報學方面發揮接近於人甚至超人的作用,光靠簡單的算法上的改變是不夠的。
我們可以想一想,真實的情報工作中,最能稱之為 " 神奇 " 的是哪一項?
答案是,靠開源信息推理出秘密信息。不竊取、不駭侵,僅僅靠公開的信息就能獲取到關鍵性情報。
比較知名的是我國一樁 " 照片泄密案 "。1964 年《中國畫報》封面刊出瞭一張照片,大慶油田的 " 鐵人 " 王進喜頭戴大狗皮帽,身穿厚棉襖,頂著鵝毛大雪,握著鉆機手柄眺望遠方,背後能依稀看到井架。
而日本情報專傢根據王進喜的衣著、手柄樣式、井架密度等等判斷出瞭石油基地在大慶,並研發出瞭適合大慶的設備,在中國政府采購設備時一舉中標。
接下來,我們可以再想一想,在當今的人工智能領域中,最艱難的敏感的話題是什麼?
沒錯,就是數據的敏感性。想獲取人們的聊天記錄和通話記錄並不困難,可運用這種數據的合理性就很難說瞭。尤其在情報工作方面,取得那些非公開的數據不是難點,難點是數據脫敏,或者說是不讓別人知道自己侵犯瞭他們的隱私。
兩者結合,就得出瞭答案。
用知識圖譜把人工智能變成人類專傢
我們現在已經擁有很多空開的信息瞭,深度挖掘開源數據,發現數據與數據間的管理、信息與事實間的關聯,是當今人工智能在情報學中能做出的最大貢獻。
曾經為搜索引擎做出貢獻的知識圖譜在這時就可以幫上忙——作為人工智能大概念下的子集之一,知識圖譜的價值在於理解數據的內在含義,把以往的 " 名詞搜索 " 變成語義搜索,從而在離散的數據間建立聯系。
現在不需要日本情報專傢,隻需要通過算法來尋找數據與描述之間的關系,也能發現中國的油田建在哪裡。
如果把這張照片做成數據集,舉辦一場目的是找到中國油田在哪裡的黑客馬拉松,過程大概會是這樣:首先對用計算機視覺技術對照片進行識別和挖掘,結合當時中國各地天氣情況就能圈定出大概的地理位置。再標註出背景中的高架數量、手柄樣式,和數據庫中的信息作比對,就能識別出油田的容量和規模。
完成這些工作,大概隻需要 ……5 分鐘吧。
而利用上知識圖譜,情報工作能做到的不僅僅是找油田這麼簡單。中國一傢數據機構曾經做過這樣一個針對公共安全的項目。這傢數據機構整合瞭分散在各個公安系統的數據,從中挖掘瞭不少模型和規則。這意味著,把這些規則運用到新增數據之中時,可以識別出這些數據中的高危因素。
這樣的知識圖譜建立的越廣、越深,就越能達成讓人工智能成為人類專傢一樣情報工作者的願景。
今天所介紹的,隻是人工智能應用於情報工作的冰山一角,在真實情況中,人工智能中的種種技術已經成為瞭情報工作中的基礎設施。
國防、公安這些元素不能被個人所左右,但值得留意的,是出現在商業情報中相似的邏輯和可能性。
在最近熱播的職場戲《獵場》中,胡歌還要靠手機拍照來竊取商業機密。相信不久之後,商場鬥爭情節中的主角就不再是西裝革履的投行精英,而是穿著格子襯衫的碼農瞭。