數(shù)據(jù)匿名化對隱私可以起保護作用嗎
過去十年以來,我們收集與存儲個人數(shù)據(jù)的能力呈現(xiàn)出爆炸式的增長。由于全球三分之二的人口能夠訪問互聯(lián)網(wǎng),電子病歷成為常態(tài),物聯(lián)網(wǎng)亦快速興起,這種趨勢很可能迎來愈演愈烈之勢。通過填寫在線調查或者統(tǒng)計瀏覽習慣,從金融或者醫(yī)療服務當中大規(guī)模收集到的信息擁有令人意外的巨大潛力。其推動了醫(yī)學、社會科學以及人工智能的科學進步,并有望徹底改變企業(yè)與政府的運作方式。
然而,大規(guī)模收集并使用詳盡的個人級數(shù)據(jù)也帶來了法律層面的隱私難題。最近,DeepMind共享英國國家健康服務局(NHS)醫(yī)療數(shù)據(jù)以及劍橋分析公司大量購買Facebook數(shù)據(jù)集等事件,都讓人們愈發(fā)關注個人數(shù)據(jù)的保密性、隱私性與道德使用等問題。
為此,數(shù)據(jù)匿名化也開始受到了廣泛關注。所謂匿名化,就是在共享數(shù)據(jù)集內容之前首先其其中的身份信息進行剔除,這也是各類研究與商業(yè)機構所采取的主要個人隱私保護范式。全球范圍內的各類數(shù)據(jù)法普遍認為匿名數(shù)據(jù)不再屬于個人數(shù)據(jù),允許各方自由使用、共享以及銷售。例如,學術期刊正越來越多地要求作者向研究界提供匿名數(shù)據(jù)。雖然匿名數(shù)據(jù)的標準各不相同,但現(xiàn)代數(shù)據(jù)保護法(例如歐盟〈通用數(shù)據(jù)保護條例〉(GDPR)以及〈加州消費者隱私法案〉(CCPA)等)都認為數(shù)據(jù)集中的每個人都應通過匿名化方式得到保護。GDPR提出的要求進一步明確了這種新的匿名化標準:數(shù)據(jù)不應包含可能導致真實身份復原的明顯身份識別因素,這也將匿名化問題正式歸入法律范疇。
而為了保護這些有意或者無意間將自己的個人信息交予數(shù)據(jù)庫的用戶,大多數(shù)機構也會消除數(shù)據(jù)中的身份信息。在具體流程中,他們會刪除明顯的個人身份標識,包括姓名與社保號碼;有時也會采取其他預防性措施,例如向集合中引入隨機“噪聲”數(shù)據(jù)或者利用常規(guī)標識替換特定細節(jié)(例如將1990年3月7日出生,調整為1990年1月至4月間出生)。處理完成之后,代理機構即可發(fā)布或者出售這部分信息。
》》》 數(shù)據(jù)匿名化處理被證明無效然而,事實證明,經(jīng)過匿名化處理的數(shù)據(jù)集無法成功解決個人身份被復原問題。
2016年,記者從300萬德國公民的匿名瀏覽歷史數(shù)據(jù)集當中重新識別出多位政治家,并據(jù)此得到了其醫(yī)療信息與性取向結論。幾個月前,澳大利亞衛(wèi)生部公開發(fā)布了涵蓋國內10%人口的去身份醫(yī)療記錄,但研究人員僅在6周之后就完成了重新識別。在此之前,有研究表明,我們完全可以利用基本人口統(tǒng)計學屬性結合診斷數(shù)據(jù)、出生年份、性別以及種族等基因組研究數(shù)據(jù)實現(xiàn)患者身份的唯一性識別。最后,研究人員們還發(fā)現(xiàn),來自紐約的出租車路線、倫敦的共享自行車使用方式、里加的地鐵出行數(shù)據(jù)以及移動電話與信用卡數(shù)據(jù)集等所謂匿名信息,都可用于對個人進行唯一性識別。
關于這個論題,倫敦帝國理工學院計算隱私助理教授Yves-Alexandre de Montjoye作為作者之一,日前在《自然:通訊》雜志發(fā)表了名為《利用生成模型估算通過不完整數(shù)據(jù)集復原個人身份的成功率》(論文鏈接:https://www.nature.com/articles/s41467-019-10933-3)的研究論文,他表示,在過去25年當中,數(shù)據(jù)匿名化的基本作用就是在幫助我們在利用數(shù)據(jù)進行統(tǒng)計與研究之外,保護人們的隱私。然而,大部分常用的匿名化技術起源于二十世紀九十年代,也就是互聯(lián)網(wǎng)快速發(fā)展之前。換言之,這些匿名技術并沒有考慮到互聯(lián)網(wǎng)在收集個人健康、財務、購物以及瀏覽習慣等細節(jié)方面的強大能力,從而使得我們能夠相對容易地將匿名數(shù)據(jù)與特定個人關聯(lián)起來。
例如,如果私人偵探打算在紐約市尋找某人,已經(jīng)確定其為男性、年齡在30到35歲之間且患有糖尿病,那么搜索工作將簡單得多。如果再配合其生日、孩子數(shù)量、郵政編碼、所在企業(yè)以及所擁有的車輛型號,那么他們甚至可以很快推斷出此人的真實身份。
過去幾年以來,Montjoye和其他研究人員曾先后發(fā)表多份研究報告,探討如何通過匿名購物數(shù)據(jù)或者健康記錄復原個人身份。他們提出了一種基于copula的生成方法,其能夠在完整度極低的數(shù)據(jù)集當中準確估算出特定人士被正確重新識別的可能性。在總計210名測試對象當中,他們的方法獲得的個體唯一性預測AUC分數(shù)范圍在0.84至0.97之間,代表其準確率已經(jīng)非??捎^。利用這套模型,他們發(fā)現(xiàn)在使用15項人口統(tǒng)計屬性的任意數(shù)據(jù)集當中,美國普通民眾的真實身份有99.98%的機率被成功復原。雖然15項人口統(tǒng)計信息聽起來很多,但其中卻蘊藏著不容忽視的大問題——2017年,一家營銷分析公司曾意外發(fā)布了包含248項屬性的匿名數(shù)據(jù)集,涵蓋美國1.23億個家庭。
配合社會人口統(tǒng)計學、調查與健康數(shù)據(jù)集,Montjoye及其團隊證明這套模型在估算群體唯一性時的平均絕對誤差(MAE)為0.018;即使僅利用1%的數(shù)據(jù)比例進行訓練,其MAE仍可達到0.041。經(jīng)過訓練,模型能夠準確預測出個體的重新識別結論是否正確:如果設定95%的準確度作為閾值(





