克己復禮
能者多勞
* 請註意,本篇文章學術高能,不易理解
* 請註意,本篇文章因考慮易讀性喪失部分嚴謹性
前兩天,差評君看到個消息,蘋果在一份報告中公佈最受美國用戶歡迎的十大表情
排在瞭第一位,而且遠超其他的。
這個數據來源於蘋果的一份關於 " 差別隱私 " (differential privacy) 的報告。
仔細想想自己和朋友聊天時經常用的表情,似乎
用得的確比別的多很多。。。
不過呢,差評君今天要講的不是這個,而是這篇消息中提到的蘋果的一份關於 " 差別隱私 " (differential privacy) 的報告,這份報告要有意思得多。
這年頭,大公司收集用戶數據的事實大傢都知道,當你們瘋狂地撕開新手機的包裹,開機以後看也不看一眼又臭又長的用戶條款(差評君也不看),就點瞭同意的那一刻,大公司就開始收集你的數據瞭。
不過這也是沒辦法的事情,因為你不點同意就用不瞭他們的產品,最後這些數據就當是給廠商交瞭服務費瞭。
因此,咱們作為那些大公司的用戶,在個人隱私安全這方面,隻能賭他們的社會責任感和道德感。
某電商數據分析,他們可能比你更瞭解自己
說回到蘋果的 " Differential privacy "(差別隱私,簡稱 DP ) 報告,裡頭說瞭啥?和上面提到的大數據又有什麼關系呢?
在那份報告中,蘋果公司承認他們收集大數據來研究大部分用戶,但同時也認為蘋果沒有必要,也不應該研究個體用戶的數據。
為瞭做到這一點,蘋果公司用上瞭一門技術,叫差別隱私(DP),你可能不知道,事實上 DP 從 iOS 10 開始就已經在使用瞭。
但你會問,大數據不就是一份份個體數據組成的麼?
那蘋果怎麼說繞過個體數據,還能研究大數據???
能的!來,一起喊:科學的力量 ~
首先,咱們先講講為啥一般情況下大數據可以暴露個人隱私。
假設一傢商場在結賬的時候會匿名統計用戶買瞭什麼,在下午 1 點,小黑胖進去買東西,這時他們整合瞭 500 份數據得到瞭一份大數據,咱們叫它 A 。
十分鐘之後,小黑胖出來瞭,這時候他們有 501 份匿名數據整合成的大數據 B。
差評君隻要比對一下 B 和 A 有什麼區別,算一算(舉個不恰當但好理解的例子:兩次數據之間,如超市裡剩餘商品都少瞭哪些),就能知道有個用戶買瞭什麼,要是小二還正好撞見小黑胖的行蹤,那麼管他買雞腿還是飛機杯,差評君都知道。
這就是傳統匿名收集用戶數據的局限性,雖然是匿名收集,但廠商還是能通過某些方式確認某個個體做瞭什麼,上面說的情況現實中是可以實現的。
在 2006 年,美國的在線影片租賃公司 Netflix 辦瞭個機器學習比賽,想提升自傢的推薦功能。
Netflix 準備瞭一些用戶瀏覽數據,擦掉瞭 ID 等個人隱私(在大數據中,這種剝離敏感信息的做法叫脫敏),公佈瞭出來給參賽者用。
結果有兩個人把這些瀏覽數據和 IMDB (電影評分網站) 上的用戶觀影記錄比對,反推出瞭 Netflix 公佈數據對應的本人。
上面是傳統大數據過程中的脫敏及其弊端,那麼 DP 是怎麼做的呢?
就是在用戶上傳數據裡加一些無傷大雅的 " 擾動 ",讓最終數據無法通過對比分析來確定某個個體(比如上面小黑胖去超市的那個例子裡的分析 AB 之間差距),具體怎麼操作咱們來舉個例子。
差評君叫來瞭公司裡的小夥伴們,問他們一個問題 " 你有沒有 XXX ",回答為 " 是 " 或者 " 否 ",寫在紙條上傳給差評君。
回答的人需要先拋一個硬幣:
如果是正面,那麼如實回答。
如果是反面,那麼再拋一次硬幣,然後不管事實是什麼,正面就寫 " 是 ",反面就寫 " 否 "。
這麼一來,如果那個問題是 " 你有沒有偷吃雞腿 ",並且差評君在收集到的紙條裡有 " 是 ",即使按照平時的經驗來談,小黑胖的回答應該是 " 是 ",但你不能因此確定這個回答來自於小黑胖,因為有可能他連拋兩次反面。
哪怕小黑胖真寫瞭 " 是 ",也不代表他偷吃瞭,也許隻是他第一次拋反面第二次拋正面,被迫寫瞭 " 是 "。
這樣一來,由於在收集回答的時候,有瞭拋硬幣產生的擾動,差評君完全不可能找到任何一個回答的主人,但是收集到的數據也會損失一半真實度,因為有一半人的回答不是真的。
在現實中,數據損失一半真實度那肯定沒用瞭,不過現實中收集的數據不是一個 " 是 " 或者 " 否 " 的回答,添加的 " 擾動 " 也沒有拋硬幣這麼隨意,所以收集來的數據依然是有用的。
蘋果公司就是靠著這個原理,在你的手機傳匿名數據的時候,在你的手機本地給數據添加一些 " 擾動 ",並且刪除個人信息,才能傳到蘋果的服務器。
這個擾動不能太大,否則大數據就沒用瞭;也不能太小,小瞭你的隱私保不住。
那麼應該多大呢,可以用數學公式算出來。
源自維基百科
通過數學方法,可以讓大數據依然有很強的可靠度,而且完全找不到每條數據對應的來源。
蘋果不光給你的數據添加擾動,還做瞭其他的努力。
蘋果公司的數據隻保存三個月,而且不含 IP 等信息
搜索功能上,每個用戶每天限制搜集 2 條數據,表情每天 1 條,輸入聯想每天 2 兩條。
蘋果啟用 DP 是在 2016 年 WWDC 上公佈的,雖然大部分用戶可能不太關心,但是蘋果公司顯然很關心。
這麼處理數據,從技術上根絕瞭蘋果有針對性的研究和掌握某個個體,自己把作案工具沒收瞭,哪怕真起瞭賊心也耍不來流氓瞭。。。
蘋果公司給人什麼印象呢?
蘋果有時候給人一種高傲的姿態,例如各種不兼容別傢的產品生態圈,App 的收費機制,不友好的定價。。。
但是對於用戶個人隱私,他們的姿態卻很低,差評君從裡面看到瞭克制二字。
在蘋果看來,搜集用戶數據是被賦予的一種特權,那麼蘋果公司應該盡量克制自己,減少數據采集量,添加擾動,不惜犧牲一點點數據可靠性也要保護用戶的隱私。
這方面,蘋果甩瞭某些國內廠商幾條街 ~
某國產大廠的用戶隱私條款
在上面這個條款中,某廠在某些特殊情況下保留瞭使用用戶數據的權利。
對於蘋果公司,條款裡不存在這些特殊情況,因為這不是權利不權利的問題,而是他們也沒有用戶隱私數據,根本不存在這些 " 權利 "。。。
為瞭做文章開頭的表情統計,蘋果付出瞭很多你沒看見的努力
所以再來看看這個問題:蘋果公司給人什麼印象呢?
在差評君看來,蘋果還是一傢總能比別人多做一點點,而且還做得很好的公司。
One more thing ...
譬如他們對於環保的貢獻一直走在世界前列,差評君對於這一點以前寫過文章(傳送門)
今年年初 " 綠色世界和平 " 發佈的清潔能源報告中,蘋果在各大公司中名列前茅
(榜上兩傢中國科技公司,百度和騰訊由於能源煤炭資源比例太高,評級被劃為瞭 F)
雖然他們的明星產品線 iPhone 曾經推動瞭智能手機潮,如今卻快要被其他廠商追上瞭,蘋果公司最近在產品發佈時很少再能自信地喊出 " one more thing "。
但差評君認為這個 " one more thing " 其實轉移到瞭別的地方,這些努力是藏在產品背後的,某些更重要的東西:
社會責任,企業道德。
" 能不能順便關心一下用戶健康,畢竟腎少瞭一個 "