你從未關心過,但蘋果為這事操碎瞭心……

11-17

克己復禮

能者多勞

* 請註意,本篇文章學術高能,不易理解

* 請註意,本篇文章因考慮易讀性喪失部分嚴謹性

前兩天,差評君看到個消息,蘋果在一份報告中公佈最受美國用戶歡迎的十大表情

排在瞭第一位,而且遠超其他的。

這個數據來源於蘋果的一份關於 " 差別隱私 " (differential privacy) 的報告。

仔細想想自己和朋友聊天時經常用的表情,似乎

用得的確比別的多很多。。。

不過呢,差評君今天要講的不是這個,而是這篇消息中提到的蘋果的一份關於 " 差別隱私 " (differential privacy) 的報告,這份報告要有意思得多。

這年頭,大公司收集用戶數據的事實大傢都知道,當你們瘋狂地撕開新手機的包裹,開機以後看也不看一眼又臭又長的用戶條款(差評君也不看),就點瞭同意的那一刻,大公司就開始收集你的數據瞭。

不過這也是沒辦法的事情,因為你不點同意就用不瞭他們的產品,最後這些數據就當是給廠商交瞭服務費瞭。

因此,咱們作為那些大公司的用戶,在個人隱私安全這方面,隻能賭他們的社會責任感和道德感。

某電商數據分析,他們可能比你更瞭解自己

說回到蘋果的 " Differential privacy "(差別隱私,簡稱 DP ) 報告,裡頭說瞭啥?和上面提到的大數據又有什麼關系呢?

在那份報告中,蘋果公司承認他們收集大數據來研究大部分用戶,但同時也認為蘋果沒有必要,也不應該研究個體用戶的數據。

為瞭做到這一點,蘋果公司用上瞭一門技術,叫差別隱私(DP),你可能不知道,事實上 DP 從 iOS 10 開始就已經在使用瞭。

但你會問,大數據不就是一份份個體數據組成的麼?

那蘋果怎麼說繞過個體數據,還能研究大數據???

能的!來,一起喊:科學的力量 ~

首先,咱們先講講為啥一般情況下大數據可以暴露個人隱私。

假設一傢商場在結賬的時候會匿名統計用戶買瞭什麼,在下午 1 點,小黑胖進去買東西,這時他們整合瞭 500 份數據得到瞭一份大數據,咱們叫它 A 。

十分鐘之後,小黑胖出來瞭,這時候他們有 501 份匿名數據整合成的大數據 B。

差評君隻要比對一下 B 和 A 有什麼區別,算一算(舉個不恰當但好理解的例子:兩次數據之間,如超市裡剩餘商品都少瞭哪些),就能知道有個用戶買瞭什麼,要是小二還正好撞見小黑胖的行蹤,那麼管他買雞腿還是飛機杯,差評君都知道。

這就是傳統匿名收集用戶數據的局限性,雖然是匿名收集,但廠商還是能通過某些方式確認某個個體做瞭什麼,上面說的情況現實中是可以實現的。

在 2006 年,美國的在線影片租賃公司 Netflix 辦瞭個機器學習比賽,想提升自傢的推薦功能。

Netflix 準備瞭一些用戶瀏覽數據,擦掉瞭 ID 等個人隱私(在大數據中,這種剝離敏感信息的做法叫脫敏),公佈瞭出來給參賽者用。

結果有兩個人把這些瀏覽數據和 IMDB (電影評分網站) 上的用戶觀影記錄比對,反推出瞭 Netflix 公佈數據對應的本人。

上面是傳統大數據過程中的脫敏及其弊端,那麼 DP 是怎麼做的呢?

就是在用戶上傳數據裡加一些無傷大雅的 " 擾動 ",讓最終數據無法通過對比分析來確定某個個體(比如上面小黑胖去超市的那個例子裡的分析 AB 之間差距),具體怎麼操作咱們來舉個例子。

差評君叫來瞭公司裡的小夥伴們,問他們一個問題 " 你有沒有 XXX ",回答為 " 是 " 或者 " 否 ",寫在紙條上傳給差評君。

回答的人需要先拋一個硬幣:

如果是正面,那麼如實回答。

如果是反面,那麼再拋一次硬幣,然後不管事實是什麼,正面就寫 " 是 ",反面就寫 " 否 "。

這麼一來,如果那個問題是 " 你有沒有偷吃雞腿 ",並且差評君在收集到的紙條裡有 " 是 ",即使按照平時的經驗來談,小黑胖的回答應該是 " 是 ",但你不能因此確定這個回答來自於小黑胖,因為有可能他連拋兩次反面。

哪怕小黑胖真寫瞭 " 是 ",也不代表他偷吃瞭,也許隻是他第一次拋反面第二次拋正面,被迫寫瞭 " 是 "。

這樣一來,由於在收集回答的時候,有瞭拋硬幣產生的擾動,差評君完全不可能找到任何一個回答的主人,但是收集到的數據也會損失一半真實度,因為有一半人的回答不是真的。

在現實中,數據損失一半真實度那肯定沒用瞭,不過現實中收集的數據不是一個 " 是 " 或者 " 否 " 的回答,添加的 " 擾動 " 也沒有拋硬幣這麼隨意,所以收集來的數據依然是有用的。

蘋果公司就是靠著這個原理,在你的手機傳匿名數據的時候,在你的手機本地給數據添加一些 " 擾動 ",並且刪除個人信息,才能傳到蘋果的服務器。

這個擾動不能太大,否則大數據就沒用瞭;也不能太小,小瞭你的隱私保不住。

那麼應該多大呢,可以用數學公式算出來。

源自維基百科

通過數學方法,可以讓大數據依然有很強的可靠度,而且完全找不到每條數據對應的來源。

蘋果不光給你的數據添加擾動,還做瞭其他的努力。

蘋果公司的數據隻保存三個月,而且不含 IP 等信息

搜索功能上,每個用戶每天限制搜集 2 條數據,表情每天 1 條,輸入聯想每天 2 兩條。

蘋果啟用 DP 是在 2016 年 WWDC 上公佈的,雖然大部分用戶可能不太關心,但是蘋果公司顯然很關心。

這麼處理數據,從技術上根絕瞭蘋果有針對性的研究和掌握某個個體,自己把作案工具沒收瞭,哪怕真起瞭賊心也耍不來流氓瞭。。。

蘋果公司給人什麼印象呢?

蘋果有時候給人一種高傲的姿態,例如各種不兼容別傢的產品生態圈,App 的收費機制,不友好的定價。。。

但是對於用戶個人隱私,他們的姿態卻很低,差評君從裡面看到瞭克制二字。

在蘋果看來,搜集用戶數據是被賦予的一種特權,那麼蘋果公司應該盡量克制自己,減少數據采集量,添加擾動,不惜犧牲一點點數據可靠性也要保護用戶的隱私。

這方面,蘋果甩瞭某些國內廠商幾條街 ~

某國產大廠的用戶隱私條款

在上面這個條款中,某廠在某些特殊情況下保留瞭使用用戶數據的權利。

對於蘋果公司,條款裡不存在這些特殊情況,因為這不是權利不權利的問題,而是他們也沒有用戶隱私數據,根本不存在這些 " 權利 "。。。

為瞭做文章開頭的表情統計,蘋果付出瞭很多你沒看見的努力

所以再來看看這個問題:蘋果公司給人什麼印象呢?

在差評君看來,蘋果還是一傢總能比別人多做一點點,而且還做得很好的公司。

One more thing ...

譬如他們對於環保的貢獻一直走在世界前列,差評君對於這一點以前寫過文章(傳送門)

今年年初 " 綠色世界和平 " 發佈的清潔能源報告中,蘋果在各大公司中名列前茅

(榜上兩傢中國科技公司,百度和騰訊由於能源煤炭資源比例太高,評級被劃為瞭 F)

雖然他們的明星產品線 iPhone 曾經推動瞭智能手機潮,如今卻快要被其他廠商追上瞭,蘋果公司最近在產品發佈時很少再能自信地喊出 " one more thing "。

但差評君認為這個 " one more thing " 其實轉移到瞭別的地方,這些努力是藏在產品背後的,某些更重要的東西:

社會責任,企業道德。

" 能不能順便關心一下用戶健康,畢竟腎少瞭一個 "

精彩圖片
文章評論 相關閱讀
© 2016 看看新聞 http://www.kankannews.cc/