在當(dāng)今數(shù)據(jù)驅(qū)動(dòng)的市場(chǎng)中,數(shù)據(jù)為企業(yè)帶來(lái)了更多的力量和機(jī)會(huì)。但正所謂“權(quán)力越大,責(zé)任越大?!彪S著越來(lái)越多的個(gè)人信息被組織收集和分析,保護(hù)個(gè)人隱私和防止濫用或未經(jīng)授權(quán)訪問(wèn)個(gè)人數(shù)據(jù)的需求也隨之而來(lái)。
(資料圖片僅供參考)
根據(jù)歐華律師事務(wù)所最新的《通用數(shù)據(jù)保護(hù)條例(GDPR)罰款和數(shù)據(jù)泄露調(diào)查》顯示,自2022年1月28日以來(lái),歐洲根據(jù)GDPR共開(kāi)出了16.4億歐元(約合17.4億美元/ 14.3億英鎊)的罰款。報(bào)告的GDPR罰款總額同比增長(zhǎng)50%。
為了更好地保護(hù)用戶個(gè)人隱私數(shù)據(jù),我們需要了解各種可用的數(shù)據(jù)匿名化技術(shù)和提供這些技術(shù)的工具。
數(shù)據(jù)匿名化技術(shù)不同的數(shù)據(jù)匿名化技術(shù)可用于多種行業(yè),旨在從數(shù)據(jù)流中獲取有用的見(jiàn)解,同時(shí)確保滿足數(shù)據(jù)保護(hù)標(biāo)準(zhǔn)和法規(guī)的合規(guī)要求。
1. 數(shù)據(jù)脫敏(Data Masking)數(shù)據(jù)脫敏,又稱數(shù)據(jù)漂白、數(shù)據(jù)去隱私化或數(shù)據(jù)變形,指的是對(duì)數(shù)據(jù)集中的敏感信息進(jìn)行加密,以便在企業(yè)用于分析和測(cè)試時(shí)保護(hù)原始數(shù)據(jù)。在涉及用戶安全數(shù)據(jù)或一些商業(yè)性敏感數(shù)據(jù)的情況下,在不違反系統(tǒng)規(guī)則條件下,對(duì)真實(shí)數(shù)據(jù)進(jìn)行改造并提供測(cè)試使用,如身份證號(hào)、手機(jī)號(hào)、卡號(hào)等個(gè)人信息都需要進(jìn)行數(shù)據(jù)脫敏。
當(dāng)數(shù)據(jù)需要由不同的各方共享或訪問(wèn)時(shí),這種技術(shù)通常很有用。例如,可以用隨機(jī)生成的字符或數(shù)字替換諸如社會(huì)保險(xiǎn)號(hào)、姓名和地址之類的個(gè)人識(shí)別信息(PII),或者用“X”替換社會(huì)保險(xiǎn)號(hào)或信用卡號(hào)中除最后四位數(shù)字以外的所有數(shù)字,從而保護(hù)數(shù)據(jù)安全。
一些常見(jiàn)的數(shù)據(jù)脫敏技術(shù)如下:
隨機(jī)化:這包括用基于預(yù)定義規(guī)則集生成的隨機(jī)或虛構(gòu)值替換原始數(shù)據(jù)值。隨機(jī)數(shù)據(jù)不鏈接到任何可識(shí)別的信息。替換:這涉及到用一個(gè)掩碼值替換原始數(shù)據(jù)值,該掩碼值保留了與原始值相同的數(shù)據(jù)格式和特征,但不顯示任何可識(shí)別的信息。擾動(dòng):這包括以受控的方式向被屏蔽的數(shù)據(jù)集添加隨機(jī)噪聲或變化。這打破了常規(guī)的數(shù)據(jù)脫敏模式,從而增強(qiáng)了對(duì)敏感信息的保護(hù)。2. 泛化(Generalization)顧名思義,這種技術(shù)是用更通用的數(shù)據(jù)值替換特定的數(shù)據(jù)值。敏感數(shù)據(jù)可以被修改成一系列的范圍或一個(gè)具有合理邊界的大區(qū)域,或者在保持?jǐn)?shù)據(jù)準(zhǔn)確性的前提下,刪除一些標(biāo)識(shí)符。例如,一個(gè)人的確切年齡是匿名的,只顯示一個(gè)更通用/廣泛的年齡范圍,比如25-34歲。因此,這種技術(shù)可以應(yīng)用于多種類型的數(shù)據(jù),例如人口統(tǒng)計(jì)數(shù)據(jù)或事務(wù)數(shù)據(jù)。值得注意的是,平衡對(duì)數(shù)據(jù)執(zhí)行的泛化也很重要,這樣它就不會(huì)損害數(shù)據(jù)對(duì)分析的有用性。
3. 數(shù)據(jù)置換(Data Swapping)這種技術(shù)指的是在數(shù)據(jù)集中重新排列或置換兩個(gè)或多個(gè)敏感數(shù)據(jù)記錄。匿名化是通過(guò)將一條記錄中的值與另一條記錄的相應(yīng)值置換或交換來(lái)完成的,即置換數(shù)據(jù)集中兩條記錄的位置。例如,在包含姓名或社會(huì)保險(xiǎn)號(hào)等敏感信息的醫(yī)療記錄中,置換某些字段的值將有助于保護(hù)患者的隱私,同時(shí)保持所有其他記錄的完整。對(duì)數(shù)據(jù)集中兩個(gè)或多個(gè)個(gè)體之間的值進(jìn)行置換不僅能夠保留數(shù)據(jù)集的統(tǒng)計(jì)屬性,還能保護(hù)個(gè)體的身份安全。
4. 數(shù)據(jù)替換(Data Substitution)數(shù)據(jù)替換涉及到用不同的數(shù)據(jù)塊替換數(shù)據(jù)集中的數(shù)據(jù)塊。例如,如果你有一個(gè)值為1,2,3和4的數(shù)據(jù)集,你用值5代替值2,結(jié)果數(shù)據(jù)集將是1,5,3;例如,數(shù)據(jù)集成和管理平臺(tái)Talend Data Fabric中就包含數(shù)據(jù)匿名化功能,允許用戶定義和應(yīng)用匿名化規(guī)則到他們的數(shù)據(jù)。Talend數(shù)據(jù)匿名化中使用的技術(shù)之一就是數(shù)據(jù)替換。用戶可以使用Talend的數(shù)據(jù)替換功能,定義替換敏感和不真實(shí)數(shù)據(jù)值的規(guī)則,同時(shí)保留數(shù)據(jù)的整體結(jié)構(gòu)和格式。
5. 數(shù)據(jù)假名化(Pseudonymization)這種技術(shù)被認(rèn)為不如其他匿名化技術(shù)(如數(shù)據(jù)脫敏)有效,后者確保匿名數(shù)據(jù)集難以檢索。在這種技術(shù)中,原始PII被替換為假標(biāo)識(shí)符或假名,但保留了可以訪問(wèn)原始數(shù)據(jù)的特定標(biāo)識(shí)符。因此,虛假標(biāo)識(shí)符可能與個(gè)人的真實(shí)身份直接相關(guān),也可能不直接相關(guān)。數(shù)據(jù)假名化通常用于任何業(yè)務(wù)分析或測(cè)試不需要敏感或個(gè)人數(shù)據(jù),但需要掩蓋個(gè)人身份的情況。例如,在醫(yī)學(xué)研究中,根據(jù)倫理和強(qiáng)制立法,病人的身份可能需要模糊。但是,可能仍然需要某些形式的病人身份證明,以便將不同來(lái)源的醫(yī)療記錄聯(lián)系起來(lái)。
它可以與散列、加密或令牌化等方法結(jié)合使用。例如,將姓名或身份證號(hào)等數(shù)據(jù)轉(zhuǎn)換為固定長(zhǎng)度的字符串,稱為散列或隨機(jī)生成的令牌(隨機(jī)字母數(shù)字代碼)。它是原始數(shù)據(jù)的唯一表示,但不能反向識(shí)別或顯示原始數(shù)據(jù)。然后,該散列可以用作原始PII的假名。
6. 數(shù)據(jù)排列(Data Permutation)該方法涉及重新排列數(shù)據(jù)集中數(shù)據(jù)的順序。例如,如果您有一個(gè)值為1,2,3,4的數(shù)據(jù)集,并且您對(duì)數(shù)據(jù)進(jìn)行了排序,那么您最終得到的數(shù)據(jù)集可能看起來(lái)像2,1,4,3。
7. K-匿名(K-Anonymity)匿名通過(guò)概括(對(duì)數(shù)據(jù)進(jìn)行更加概括、抽象的描述)和隱匿(不發(fā)布某些數(shù)據(jù)項(xiàng))技術(shù),發(fā)布精度較低的數(shù)據(jù),使得數(shù)據(jù)集中的每個(gè)人都無(wú)法從其他人中識(shí)別出來(lái),從而幫助保護(hù)數(shù)據(jù)集中的個(gè)人隱私信息。這是通過(guò)刪除或泛化每個(gè)人的唯一標(biāo)識(shí)符數(shù)據(jù)來(lái)實(shí)現(xiàn)的,例如姓名或社會(huì)安全號(hào)碼等。例如,在100個(gè)個(gè)體的數(shù)據(jù)集中,K的值為100,則沒(méi)有任何個(gè)體的信息可以與數(shù)據(jù)集中至少99或K-1個(gè)其他個(gè)體的信息區(qū)分開(kāi)來(lái)。
K-匿名是一種流行的數(shù)據(jù)匿名化技術(shù),廣泛應(yīng)用于醫(yī)療保健、金融和營(yíng)銷等各個(gè)領(lǐng)域。K-匿名被認(rèn)為是保護(hù)隱私的有效技術(shù),因?yàn)樗拗屏斯粽吒鶕?jù)其屬性識(shí)別特定個(gè)體的能力。針對(duì)這項(xiàng)技術(shù)的推薦工具是K2View,它通過(guò)其獲得專利的微數(shù)據(jù)庫(kù)技術(shù),提供K-匿名技術(shù)作為其數(shù)據(jù)匿名化功能的一部分。這涉及到將具有類似準(zhǔn)標(biāo)識(shí)符(如年齡范圍或職位)的記錄分組到一個(gè)集群中。每個(gè)集群中的記錄共享準(zhǔn)標(biāo)識(shí)符的相同屬性,使得基于這些屬性識(shí)別個(gè)體變得困難。接下來(lái),將唯一標(biāo)識(shí)符或值分配給集群,以取代原始的準(zhǔn)標(biāo)識(shí)符。敏感數(shù)據(jù)被映射到分配的唯一標(biāo)識(shí)符,而不是原始的準(zhǔn)標(biāo)識(shí)符,這使得更難跟蹤單個(gè)數(shù)據(jù)主體。
它是一種靈活且可擴(kuò)展的技術(shù)。K-匿名的其他變體,如L-Diversity(包括敏感屬性和一般屬性)和T- Closeness,通過(guò)考慮敏感屬性和一般屬性(如種族或醫(yī)療狀況)的數(shù)據(jù)多樣性和分布來(lái)增強(qiáng)隱私保護(hù)。
8. 差分隱私(Differential Privacy)差分隱私(簡(jiǎn)稱DP)是用來(lái)保護(hù)隱私的密碼學(xué)技術(shù),通過(guò)對(duì)查詢的結(jié)果加入噪音,使得查詢操作的實(shí)際結(jié)果隱藏起來(lái)或模糊化,直至無(wú)法區(qū)分,從而實(shí)現(xiàn)對(duì)敏感數(shù)據(jù)的保護(hù)。這種受控噪聲不會(huì)顯著影響對(duì)數(shù)據(jù)進(jìn)行的任何分析結(jié)果的準(zhǔn)確性;因此,它是一種基于擾動(dòng)的匿名化的具體方法。添加到數(shù)據(jù)中的噪聲量由一個(gè)稱為隱私預(yù)算的參數(shù)決定。
如今,組織已經(jīng)認(rèn)識(shí)到云計(jì)算的可擴(kuò)展性和成本效益可以滿足其數(shù)據(jù)匿名化需求。由于這種數(shù)據(jù)匿名化是一種趨勢(shì),隨著越來(lái)越多的組織認(rèn)識(shí)到基于云的解決方案對(duì)其數(shù)據(jù)管理需求的好處,這種趨勢(shì)預(yù)計(jì)將在未來(lái)幾年繼續(xù)下去。對(duì)于組織來(lái)說(shuō),投資于有效的數(shù)據(jù)匿名化解決方案以確保其數(shù)據(jù)的安全性和隱私性非常重要。
原文鏈接:https://dzone.com/articles/8-data-anonymization-techniques-to-safeguard-user
標(biāo)簽: