久久ER99热精品一区二区-久久精品99国产精品日本-久久精品免费一区二区三区-久久综合九色综合欧美狠狠

博客專欄

EEPW首頁 > 博客 > 「圖隱私攻擊與防御技術(shù)」最新2022研究綜述

「圖隱私攻擊與防御技術(shù)」最新2022研究綜述

發(fā)布人:數(shù)據(jù)派THU 時(shí)間:2022-05-15 來源:工程師 發(fā)布文章

來源專知

圖片


摘要
如今,圖數(shù)據(jù)已經(jīng)被廣泛地應(yīng)用于現(xiàn)實(shí)生活與科學(xué)研究當(dāng)中,有巨大的使用和研究價(jià)值. 但與此同時(shí),針對(duì)圖數(shù)據(jù)的收集與發(fā)布中也存在巨大的隱私風(fēng)險(xiǎn)。如何在保護(hù)圖隱私的同時(shí),發(fā)布與收集可用圖數(shù)據(jù),是目前個(gè)人、企業(yè)、政府等面臨的重大挑戰(zhàn). 本文首先從隱私信息所包含的內(nèi)容、不同的隱私泄露場景,以及敵手模型三個(gè)方 面深入地剖析了圖數(shù)據(jù)在使用中存在的隱私風(fēng)險(xiǎn),然后重點(diǎn)從攻擊和防御兩個(gè)角度展開介紹. 針對(duì)攻擊而言,本文分析了當(dāng)前可行的圖數(shù)據(jù)隱私攻擊與攻擊量化算法及其算法原理。針對(duì)防御而言,本文總結(jié)了簡單匿名、圖修改、 聚類,以及差分隱私四種圖數(shù)據(jù)隱私防御技術(shù);分析了集中與分布兩種數(shù)據(jù)存儲(chǔ)場景下,不同類型圖數(shù)據(jù)使用的各類隱私防御算法,以及數(shù)據(jù)隱私性與可用性度量方法。最后本文綜合已有的研究成果,指出了圖數(shù)據(jù)上隱私保護(hù)研究當(dāng)前存在的問題、面臨的挑戰(zhàn),及未來的研究方向。


http://cjc.ict.ac.cn/online/onlinepaper/002-%E5%88%98%E5%AE%87%E6%B6%B5-H-2022425163952.pdf


引言


圖數(shù)據(jù)目前已被廣泛應(yīng)用于生活中的各個(gè)領(lǐng)域。相較于列表等其他數(shù)據(jù)類型,圖數(shù)據(jù)具有更強(qiáng)的表達(dá)能力:除通過結(jié)點(diǎn)表征實(shí)體屬性信息外,還可以通過邊清晰地表達(dá)結(jié)點(diǎn)實(shí)體間的鏈接關(guān)系,因此 被普遍應(yīng)用于現(xiàn)實(shí)生活與科學(xué)研究中[1]。典型的圖數(shù)據(jù)包括社交網(wǎng)絡(luò)、通訊網(wǎng)絡(luò)、移動(dòng)軌跡、傳染病與醫(yī)療數(shù)據(jù)、合作網(wǎng)絡(luò)、引用網(wǎng)絡(luò)、交易信息網(wǎng)絡(luò)、自治系統(tǒng)數(shù)據(jù)及其他拓?fù)鋱D等,被政府、科研機(jī)構(gòu)及企業(yè) 應(yīng)用于犯罪分子行為模式挖掘、疾病傳播研究、推薦 系統(tǒng)等政府?dāng)?shù)據(jù)挖掘、學(xué)術(shù)研究與商業(yè)應(yīng)用當(dāng)中.


然而圖數(shù)據(jù)中蘊(yùn)含大量的敏感信息,一旦泄露,造成的后果極為嚴(yán)重。除如社交網(wǎng)絡(luò)中的個(gè)人資料、醫(yī)療數(shù)據(jù)中的診療記錄、交易信息網(wǎng)絡(luò)中的交易內(nèi)容等圖結(jié)點(diǎn)上的敏感文本屬性外,圖數(shù)據(jù)中還包含社會(huì)關(guān)系、醫(yī)患關(guān)系、交易方式等邊上的敏感鏈接關(guān)系. 因此圖數(shù)據(jù)的隱私泄露事件往往涉及人數(shù)眾多、影響廣泛。2018 年,社交網(wǎng)絡(luò) Facebook 超過5000萬用戶個(gè)人信息遭到泄露,除個(gè)人資料等用戶結(jié)點(diǎn)屬性信息外,還包括好友資料、點(diǎn)贊與轉(zhuǎn)發(fā)情況 等用戶結(jié)點(diǎn)間的關(guān)聯(lián)關(guān)系 . 數(shù)據(jù)公司通過分析用戶間的關(guān)聯(lián)關(guān)系,準(zhǔn)確推測出了用戶的受教育情況、政治傾向、性取向,甚至是用戶兒童時(shí)期受過的創(chuàng)傷, 從而精準(zhǔn)投放引導(dǎo)性信息,以達(dá)到左右用戶行為的目的。此外,數(shù)據(jù)分析者還利用用戶的好友列表,進(jìn)一步擴(kuò)大影響范圍。最終,該隱私泄露事件累計(jì)波及到了 8700 萬用戶。Facebook 也因此信譽(yù)受損、市值下跌,并面臨累計(jì)超過16億美元的罰款。


可見,圖數(shù)據(jù)在收集與發(fā)布等使用過程中面臨著巨大的隱私風(fēng)險(xiǎn)。攻擊者可以結(jié)合各種背景知識(shí)對(duì)圖數(shù)據(jù)發(fā)起隱私攻擊。在圖的集中式存儲(chǔ)場景下,攻擊者可借助公開的人口統(tǒng)計(jì)數(shù)據(jù)、個(gè)體語義屬性信息、個(gè)體所在圖的局部結(jié)構(gòu)信息、公開數(shù)據(jù)集、 網(wǎng)絡(luò)爬蟲爬取的圖數(shù)據(jù)等輔助信息,對(duì)匿名圖發(fā)起結(jié)點(diǎn)實(shí)體身份再識(shí)別攻擊,并進(jìn)一步推斷實(shí)體的語義屬性、鏈接關(guān)系等隱私信息。在圖的分布式存儲(chǔ) 場景下,不可信的數(shù)據(jù)收集者可以在數(shù)據(jù)收集過程 中直接竊取用戶的隱私數(shù)據(jù) . 即便只發(fā)布或收集與原始圖相關(guān)的統(tǒng)計(jì)信息或隨機(jī)圖模型參數(shù)等,圖數(shù)據(jù)的隱私安全依然會(huì)遭到威脅。一則,發(fā)布的統(tǒng)計(jì)數(shù)據(jù)本身可能是敏感信息。二則,攻擊者可以通過發(fā)布的數(shù)據(jù)以較高的準(zhǔn)確度還原原始圖,或者綜合利用各類統(tǒng)計(jì)數(shù)據(jù)對(duì)原始圖進(jìn)行隱私推斷。


綜上所述,對(duì)圖數(shù)據(jù)隱私保護(hù)技術(shù)的研究迫在眉睫。然而圖數(shù)據(jù)蘊(yùn)含信息豐富,實(shí)體間關(guān)聯(lián)關(guān)系復(fù)雜,給其上的隱私保護(hù)帶來了嚴(yán)峻的挑戰(zhàn)。首先,圖數(shù)據(jù)上信息的多樣性增大了隱私定義的難度。圖數(shù)據(jù)中結(jié)點(diǎn)所代表的實(shí)體身份、語義屬性、結(jié)點(diǎn)所在的子圖結(jié)構(gòu)、結(jié)點(diǎn)本身在圖中的存在性,以及圖中邊上的語義屬性、邊的存在性,都可能是需要保護(hù)的敏感信息。如何選擇并綜合各類敏感信息進(jìn)行合理的 隱私定義,是圖數(shù)據(jù)隱私保護(hù)上的一個(gè)難點(diǎn)。其次, 圖數(shù)據(jù)中結(jié)點(diǎn)之間復(fù)雜的關(guān)聯(lián)關(guān)系增大了隱私保護(hù)技術(shù)設(shè)計(jì)與應(yīng)用的難度。同一個(gè)結(jié)點(diǎn)可能與大量其 它結(jié)點(diǎn)存在各種不同的鏈接關(guān)系,并且結(jié)點(diǎn)上的語義信息與結(jié)點(diǎn)所在子圖的結(jié)構(gòu)特征也存在一定的關(guān)聯(lián),對(duì)圖中任何一個(gè)結(jié)點(diǎn)、一條邊或一條語義信息稍做更改,都可能牽一發(fā)而動(dòng)全身,大大降低圖數(shù)據(jù)整體的可用性。因此,如何在充分保護(hù)用戶隱私的前提下,同時(shí)保障圖數(shù)據(jù)的高可用性是研究者關(guān)注的焦點(diǎn)。


針對(duì)關(guān)系型數(shù)據(jù)的傳統(tǒng)隱私保護(hù)技術(shù)無法滿足圖數(shù)據(jù)發(fā)布與收集的隱私需求。傳統(tǒng)的k-匿名技術(shù)、 l-多樣性技術(shù)、t-接近技術(shù)等雖然可以直接應(yīng)用于圖數(shù)據(jù)發(fā)布時(shí),結(jié)點(diǎn)上語義信息的保護(hù),但是無法同時(shí)保護(hù)結(jié)點(diǎn)間特殊的鏈接關(guān)系,以及結(jié)點(diǎn)所在的特殊子 圖結(jié)構(gòu)等隱私信息。而傳統(tǒng)的差分隱私技術(shù)直接應(yīng)用 于圖數(shù)據(jù)的發(fā)布與收集時(shí),相關(guān)函數(shù)敏感度較高,會(huì)導(dǎo)致添加的噪聲過大,數(shù)據(jù)可用性急劇下降。此外,若 直接用傳統(tǒng)的差分隱私技術(shù)對(duì)結(jié)點(diǎn)上的語義信息、結(jié)點(diǎn)存在性、邊上的語義信息與邊存在性等進(jìn)行全面的 隱私保護(hù),不僅會(huì)引起添加噪聲過大問題,而且會(huì)破壞圖數(shù)據(jù)上信息之間的一致性,降低數(shù)據(jù)可用性。因此,為滿足圖數(shù)據(jù)上隱私保護(hù)的需求,需要在傳統(tǒng)隱私保護(hù)技術(shù)的基礎(chǔ)上結(jié)合圖數(shù)據(jù)的特點(diǎn)、針對(duì)圖數(shù)據(jù)上隱私保護(hù)的難點(diǎn)來進(jìn)行創(chuàng)新。


本文第2節(jié)從圖數(shù)據(jù)隱私信息、泄露場景、與敵手模型三個(gè)方面綜合分析了圖數(shù)據(jù)在收集與發(fā)布中面臨的隱私風(fēng)險(xiǎn)。第 3 節(jié)分析了目前在圖數(shù)據(jù)模型 上各類攻擊算法及其量化方法,對(duì)攻擊者的能力進(jìn)行直觀地說明。第4節(jié)介紹了圖數(shù)據(jù)中簡單匿名、圖修改、聚類,及差分隱私四種主流隱私保護(hù)技術(shù),并梳理了針對(duì)不同應(yīng)用場景與數(shù)據(jù)類型的隱私防御算法。同時(shí)介紹了圖數(shù)據(jù)隱私性與可用性度量及二者關(guān)系。第 5 節(jié)總結(jié)了當(dāng)前圖數(shù)據(jù)隱私保護(hù)中仍然存在的問題,并展望了未來可能的研究方向與挑戰(zhàn)。第6節(jié)總結(jié)全文。


2 隱私風(fēng)險(xiǎn) 


隱私風(fēng)險(xiǎn)指的是在圖發(fā)布與收集的過程中可能 面臨來自多種攻擊者、對(duì)不同的攻擊對(duì)象發(fā)起的各類攻擊,從而導(dǎo)致圖中的敏感信息泄露。本節(jié)將從隱私信息、隱私泄露場景、敵手模型三個(gè)方面,評(píng)估 在圖收集發(fā)布的過程中所面臨的隱私風(fēng)險(xiǎn)。


2.1 隱私信息
隱私信息是圖中可能泄露的各類敏感信息。文獻(xiàn)[3]從結(jié)構(gòu)上將圖上的隱私信息主要分為結(jié)點(diǎn)上的隱私信息與邊上的隱私信息兩大類。而本文則根據(jù)文獻(xiàn)[2],從內(nèi)容的角度將圖上的隱私信息分為身份信息、語義屬性與鏈接關(guān)系三大類,并豐富了定義內(nèi)涵。


身份信息指圖數(shù)據(jù)中結(jié)點(diǎn)與結(jié)點(diǎn)所代表實(shí)體身份的一一對(duì)應(yīng)關(guān)系,如:社交網(wǎng)絡(luò)中結(jié)點(diǎn)所代表用戶的用戶姓名、用戶 ID 等身份標(biāo)識(shí)符。除結(jié)點(diǎn)與實(shí)體的對(duì)應(yīng)關(guān)系外,在傳染病傳播圖等數(shù)據(jù)中,結(jié)點(diǎn)本身 在圖中的存在性也是一個(gè)敏感信息。


語義屬性指結(jié)點(diǎn)中除身份信息外其他可能泄露隱私的屬性信息,通常包括敏感屬性信息,如郵件通訊網(wǎng)絡(luò)中與用戶結(jié)點(diǎn)關(guān)聯(lián)的郵件內(nèi)容;或一組可以唯一確定結(jié)點(diǎn)身份的非敏感屬性集合,即準(zhǔn)標(biāo)識(shí)符, 如職業(yè)社交網(wǎng)絡(luò)中用戶結(jié)點(diǎn)的職業(yè)、性別、年齡、所在地郵編等。鏈接關(guān)系指結(jié)點(diǎn)所代表實(shí)體之間的關(guān)聯(lián)關(guān)系, 在圖中用邊表示。


鏈接關(guān)系上的隱私信息包括邊上 的權(quán)重,如商業(yè)網(wǎng)絡(luò)中兩個(gè)實(shí)體間的交易額;邊上的 屬性,如社交網(wǎng)絡(luò)中兩個(gè)實(shí)體間的朋友、親友、醫(yī)患關(guān)系等;邊的存在性,如在通訊圖中結(jié)點(diǎn)所代表的實(shí) 體間是否存在****或電話往來等.


2.2 隱私泄露場景


隱私泄露場景是圖數(shù)據(jù)發(fā)布與收集中可能泄露隱私的環(huán)節(jié),主要包括圖的集中式存儲(chǔ)與圖的分布式存儲(chǔ)兩種場景。圖1為隱私泄露場景示意圖。下面分別介紹兩種場景下圖數(shù)據(jù)面臨的隱私問題。


圖片
2. 3 敵手模型 
敵手模型通過敵手能力、敵手知識(shí),以及敵手目標(biāo)三個(gè)方面,全面刻畫攻擊者的特征。充分了解敵手模型,做到知己知彼,可以為圖數(shù)據(jù)隱私防御方法的研究提供指導(dǎo)依據(jù)。
3 隱私攻擊 
3. 1 攻擊算法 


在圖的分布式存儲(chǔ)場景下,當(dāng)隱私泄露方式為直接泄露時(shí),攻擊者無需復(fù)雜的攻擊算法;而當(dāng)攻擊者試圖對(duì)用戶進(jìn)行暴力入侵時(shí),通常采用中間人攻擊等信息安全領(lǐng)域的攻擊方法,不在本文的討論范疇內(nèi)。因此本節(jié)將主要介紹圖的集中式存儲(chǔ)場景下 的隱私攻擊算法。目前,圖的集中式存儲(chǔ)場景下的攻擊算法可分為兩大類,基于種子結(jié)點(diǎn)(seed-based)的攻擊算法以及非種子結(jié)點(diǎn)(seed-free)攻擊算法。本文進(jìn)一步將 基于種子結(jié)點(diǎn)的攻擊算法分為基于種子結(jié)點(diǎn)的主動(dòng)攻擊算法與被動(dòng)攻擊算法兩個(gè)子類。此外,不同于[1,14]等文獻(xiàn)按照時(shí)間順序介紹相關(guān)算法細(xì)節(jié),本文首次提煉各類圖隱私攻擊面臨的關(guān)鍵問題,明晰攻擊算法整體的發(fā)展脈絡(luò)。下文圍繞算法目標(biāo)、針對(duì)的關(guān) 鍵問題,以及相應(yīng)的解決方案,描述經(jīng)典攻擊算法。


圖片圖片
3. 2 攻擊量化 


除從實(shí)踐上證明算法的可行性外,還有一系列的研究致力于從理論上給出匿名圖可以被攻破的條件,以及不同背景知識(shí)對(duì)去匿名化的影響。不同于[1,14]等文獻(xiàn),本文除量化算法所基于的隨機(jī)圖模 型外,還著重分析了各個(gè)經(jīng)典量化算法針對(duì)的不同的去匿名化條件,并在表3中從理論模型假設(shè)、攻擊類型,以及量化攻擊時(shí)考慮的不同條件類型,全面總結(jié)了當(dāng)前攻擊量化研究成果.


4 隱私防御 


為抵御上述針對(duì)圖數(shù)據(jù)的隱私攻擊,研究者結(jié)合不同地隱私防御技術(shù),提出了多種隱私防御的算法,本節(jié)將從圖上的隱私防御技術(shù)、隱私防御算法, 以及圖的隱私性與可用性三方面展開介紹。


4. 1 隱私防御技術(shù) 
目前,針對(duì)圖數(shù)據(jù)發(fā)布與收集的隱私防御技術(shù)主要可以分為簡單匿名技術(shù)、圖修改技術(shù)、聚類技術(shù) 以及差分隱私技術(shù)四類。下面將依次介紹上述隱私 防御技術(shù)及其實(shí)現(xiàn)機(jī)制.。


4. 2 隱私防御算法 


在針對(duì)圖數(shù)據(jù)的發(fā)布與收集過程中,最直接的方式是發(fā)布或收集原始圖的鄰居向量或鄰接矩陣,因此部分研究基于原始圖的拓?fù)浣Y(jié)構(gòu)、鄰接矩陣或鄰居向量設(shè)計(jì)隱私保護(hù)方案。然而原始圖的拓?fù)浣Y(jié)構(gòu)復(fù)雜, 鄰接矩陣維度較高,在算法設(shè)計(jì)與實(shí)現(xiàn)過程中存在算法時(shí)間復(fù)雜度高、噪聲添加大等困難。因此除原始圖外,還有研究針對(duì)圖上的統(tǒng)計(jì)特征、隨機(jī)圖模型參數(shù),以及合成圖的收集與發(fā)布進(jìn)行隱私保護(hù)。相比于以隱私技術(shù)為依據(jù)的傳統(tǒng)分類方式[1,14,]本文從實(shí)際應(yīng)用的角度出發(fā),分別介紹在集中式與分 布式數(shù)據(jù)存儲(chǔ)場景下,針對(duì)以上四種圖上數(shù)據(jù)類型的 隱私防御算法。同時(shí),本文首次提煉出各類隱私防御算法面臨的關(guān)鍵問題,并圍繞算法的防御目標(biāo)、采用的防御技術(shù),以及算法針對(duì)的關(guān)鍵問題及其解決方案,對(duì)相關(guān)算法進(jìn)行描述,明晰各類算法發(fā)展脈絡(luò)。


5 挑戰(zhàn)與展望 


隨著人們對(duì)個(gè)人隱私的逐步重視,各類新政策的出臺(tái),個(gè)人隱私保護(hù)需求與高質(zhì)量服務(wù)需求 之間的矛盾被持續(xù)激化,使得對(duì)圖數(shù)據(jù)的隱私風(fēng) 險(xiǎn)評(píng)估與隱私性度量、可用性度量、隱私保護(hù)技術(shù)、隱私保護(hù)算法等的深入研究空前迫切。目前, 已經(jīng)有很多研究致力于解決圖上的隱私保護(hù)問題,相關(guān)研究已經(jīng)廣泛涉及到了不同場景下的多種數(shù)據(jù)類型、隱私保護(hù)技術(shù),取得了一定的進(jìn)展。但由于圖數(shù)據(jù)具有蘊(yùn)含信息豐富、數(shù)據(jù)之間關(guān)聯(lián)性強(qiáng)、現(xiàn)實(shí)中圖相對(duì)稀疏等特點(diǎn),現(xiàn)有的研究還不 能滿足人們對(duì)圖數(shù)據(jù)上隱私保護(hù)的需求,當(dāng)前還 有很多亟待解決的問題,限制了相關(guān)研究在現(xiàn)實(shí)應(yīng)用中的推廣與普及。


圖片圖片
5. 1 圖數(shù)據(jù)隱私發(fā)布與收集中的難點(diǎn)問題 
5. 1. 1 隱私性與可用性權(quán)衡問題 
數(shù)據(jù)隱私性與可用性的權(quán)衡問題是隱私保護(hù)領(lǐng)域的一個(gè)共性問題。如何找到可用性的犧牲與隱私性保證之間的平衡點(diǎn)是設(shè)計(jì)隱私保護(hù)算法的關(guān)鍵。然而,圖中隱私信息類型豐富,不同結(jié)點(diǎn)之間具有很強(qiáng)的關(guān)聯(lián)性,給圖數(shù)據(jù)隱私性與可用性的量化與隱私方案設(shè)計(jì)帶來了更大的挑戰(zhàn)。首先,對(duì)于數(shù)據(jù)隱私性而言,雖然針對(duì)不同采用不同隱私技術(shù)的匿名圖有不同的量化方式,但是缺乏統(tǒng)一的量化標(biāo)準(zhǔn);對(duì)于數(shù)據(jù)可用性而言,雖然可以用特定的圖性質(zhì)來度量,但同樣尚且沒有簡潔統(tǒng)一的量化標(biāo)準(zhǔn)。并且,不論是圖數(shù)據(jù)的隱私性度量還是可用性度量,目前都很難兼顧圖上結(jié)點(diǎn)的身份信息、鏈接關(guān)系及屬性信 息等多種隱私信息。而一旦可以綜合量化數(shù)據(jù)隱私性與可用性,就可以通過理論分析找到其平衡點(diǎn),從而設(shè)計(jì)更有效的隱私防御方案。其次,在具體設(shè)計(jì)隱私方案時(shí),不同的隱私信息類型需要采用不同的隱私保護(hù)技術(shù),因此很難兼顧所有的隱私信息;圖中的同一個(gè)結(jié)點(diǎn)通過邊與很多其他結(jié)點(diǎn)相連,若對(duì)中心結(jié)點(diǎn)進(jìn)行修改則會(huì)極大程度破壞圖結(jié)構(gòu)可用性, 而不做修改則很難保障中心結(jié)點(diǎn)的結(jié)構(gòu)隱私。基于此,無論是對(duì)圖數(shù)據(jù)隱私性與可用性的量化,還是對(duì)于具體的隱私保護(hù)方案設(shè)計(jì),圖數(shù)據(jù)的隱私性與可用性權(quán)衡都將繼續(xù)是未來圖數(shù)據(jù)隱私保護(hù)的一個(gè)嚴(yán)峻的挑戰(zhàn)。


5. 1. 2 個(gè)性化隱私保護(hù) 
圖數(shù)據(jù)在現(xiàn)實(shí)生活中圖數(shù)據(jù)有廣泛的應(yīng)用,如基于社交網(wǎng)絡(luò)、購買記錄等的推薦系統(tǒng),基于地理位置的路徑規(guī)劃,以及基于交易記錄的欺詐檢測等等。在不同類型的網(wǎng)絡(luò)中對(duì)隱私保護(hù)強(qiáng)度有不同的需求。而在同一個(gè)網(wǎng)絡(luò)中,同一個(gè)實(shí)體結(jié)點(diǎn)對(duì)不同的隱私信息也有不同的需求。以基于社交網(wǎng)絡(luò)的朋友推薦為例,社交網(wǎng)絡(luò)中的不同用戶哪些屬性為隱私屬性,或者哪些鏈接關(guān)系為隱私鏈接關(guān)系都有不同的定義。還有一些用戶不認(rèn)為自己所在社交網(wǎng)絡(luò)中存在隱私信息,反而希望服務(wù)提供商利用自己在社交網(wǎng)絡(luò)中的信息,為自己提供更精準(zhǔn)的好友推薦、社群推薦或者商品推薦等服務(wù)。在以往的研究中,還沒有發(fā)現(xiàn)能夠解決圖數(shù)據(jù)上個(gè)性化隱私保護(hù)的可行方案。因此,如何針對(duì)不同網(wǎng)絡(luò)中不同實(shí)體的隱私需求,在保護(hù)實(shí)體隱私的同時(shí),為實(shí)體提供更好的服務(wù)是未來圖數(shù)據(jù)隱私保護(hù)一個(gè)研究趨勢。


5. 1. 3 圖數(shù)據(jù)的動(dòng)態(tài)發(fā)布與多次收集 


在對(duì)圖的研究中,圖的演化是一個(gè)重要的研究方向。研究圖的演化可以對(duì)人的社交行為、疾病的傳播規(guī)律等具有更深刻的認(rèn)識(shí)與理解。而研究圖的演化,往往需要對(duì)同一圖數(shù)據(jù)進(jìn)行多次收集或者動(dòng)態(tài)發(fā)布。一般的隱私防御方案無法保證在多次收集或者動(dòng)態(tài)發(fā)布中數(shù)據(jù)的隱私安全。多次收集及動(dòng)態(tài)發(fā)布時(shí),在保證結(jié)點(diǎn)、邊及屬性隱私安全的同時(shí),還需要保證同一時(shí)間序列下數(shù)據(jù)的一致性,如:同一時(shí)間序列下相同結(jié)點(diǎn)的身份代碼要一致;此外發(fā)布數(shù)據(jù)中邊的存在性、圖中的語義信息等要符合原始圖的演化規(guī)律等。隱私防御算法在保證數(shù)據(jù)的一致性同時(shí),提高了數(shù)據(jù)的可用性,但同時(shí)也豐富了攻擊者對(duì)同一時(shí)間序列下的圖數(shù)據(jù)發(fā)起攻擊時(shí)的敵手知識(shí),進(jìn)一步增加了防御的難度。目前,已經(jīng)有少量的研究關(guān)注該問題,但是鮮有有效的解決方案,因此該問題是仍然是未來圖數(shù)據(jù)隱私保護(hù)上的一個(gè)重要探索方向。


5. 1. 4 面向主動(dòng)攻擊的隱私防御算法 
主動(dòng)攻擊者具有很強(qiáng)的攻擊能力。現(xiàn)實(shí)中,主動(dòng)攻擊者可以通過在社交網(wǎng)絡(luò)中創(chuàng)建僵尸賬號(hào)并主動(dòng)關(guān)聯(lián)目標(biāo)用戶對(duì)用戶發(fā)起隱私攻擊。近年來有文獻(xiàn)提出一種具有魯棒性的主動(dòng)攻擊算法,可以以較高的準(zhǔn)確度一次性對(duì)大量結(jié)點(diǎn)進(jìn)行去匿名化攻擊。該算法的提出,不僅使研究者更深刻認(rèn)識(shí)到主動(dòng)攻 擊者強(qiáng)大的攻擊能力,更進(jìn)一步提高了類似于社交網(wǎng)絡(luò)等圖中用戶的隱私風(fēng)險(xiǎn)。然而,目前尚沒有攻擊算法可以有效緩解由此類攻擊帶來的隱私風(fēng)險(xiǎn)。因此如何在現(xiàn)有的隱私保護(hù)算法上進(jìn)行提升,或者改進(jìn)已有的隱私防御技術(shù),使其能更好的應(yīng)對(duì)具有主動(dòng)攻擊能力的攻擊者是未來隱私保護(hù)技術(shù)發(fā)展一個(gè)可能方向.


5. 1. 5 隱私放大理論在圖隱私保護(hù)中的應(yīng)用 
近年來,通過深入挖掘各類算法自身特征,有很多工作提出了一系列的隱私放大理論,從而提升隱私防御效果。上述工作利用算法本身的隨機(jī)性、下采樣、隨機(jī)打亂等方式,放大差分隱私預(yù)算,以取得更好的隱私防御效果。利用差分隱私進(jìn)行圖的收集與發(fā)布普遍面臨噪聲添加過大,導(dǎo)致數(shù)據(jù)可用性降低等問題。若能深入研究圖的各類算法自身隱含的隱私性,或者采用基于混淆模型等的技術(shù)放大隱私, 將會(huì)極大提升數(shù)據(jù)收集與發(fā)布的質(zhì)量。然而,在圖上應(yīng)用隱私放大理論面臨諸多挑戰(zhàn)。圖上的結(jié)點(diǎn)之間存在關(guān)聯(lián)邊,因此不同數(shù)據(jù)之間不再具有獨(dú)立性, 無論是給相關(guān)方案的設(shè)計(jì),還是給理論上的證明都 增加了難度。目前,還沒有相關(guān)工作將隱私放大相關(guān)的理論與技術(shù)應(yīng)用于圖隱私保護(hù)相關(guān)的應(yīng)用場景下,該技術(shù)的應(yīng)用可能給未來圖上隱私保護(hù)技術(shù)的發(fā)展帶來新的突破。


5. 2 面向新應(yīng)用場景的圖數(shù)據(jù)隱私保護(hù) 
5. 2. 1 面向圖數(shù)據(jù)機(jī)器學(xué)習(xí)中的隱私保護(hù) 
圖數(shù)據(jù)在機(jī)器學(xué)習(xí)領(lǐng)域有著非常廣泛的應(yīng)用, 如基于神經(jīng)網(wǎng)絡(luò)的結(jié)點(diǎn)分類、鏈接預(yù)測、社群發(fā)現(xiàn),對(duì)異常檢測問題,商品及好友推薦問題等提供了巨大的幫助。然而,近年來越來越多的研究發(fā)現(xiàn),機(jī)器學(xué)習(xí)中存在著巨大的隱私風(fēng)險(xiǎn)。攻擊者可以通過機(jī)器學(xué)習(xí)發(fā)布的模型參數(shù)、預(yù)測結(jié)果等對(duì)訓(xùn)練集發(fā)起 重構(gòu)攻擊、成員推斷攻擊等,導(dǎo)致訓(xùn)練集中數(shù)據(jù)隱私泄漏。已有的針對(duì)圖數(shù)據(jù)的隱私保護(hù)算法只能用戶對(duì)圖數(shù)據(jù)訓(xùn)練集進(jìn)行輸入擾動(dòng),并且此類擾動(dòng)算法由于添加的噪聲過大,可能嚴(yán)重影響訓(xùn)練模型的可用性。而已有的針對(duì)機(jī)器學(xué)習(xí)的隱私保護(hù)策略,則面 臨著針對(duì)圖訓(xùn)練數(shù)據(jù)隱私定義難,對(duì)關(guān)聯(lián)數(shù)據(jù)擾動(dòng)難等問題。因此如何在保證模型可用性的同時(shí)提出可行的隱私保護(hù)方法是未來一個(gè)可能的探索領(lǐng)域。


5. 2. 2 隱私保護(hù)下的圖性質(zhì)多方共同計(jì)算 


不同于分布式存儲(chǔ)場景下的數(shù)據(jù)收集,在隱私保護(hù)下的圖性質(zhì)多方共同計(jì)算中,沒有數(shù) 據(jù)收集者,各方掌握部分子圖,及各子圖之間公共的邊鏈接狀況,但不了解其他各個(gè)參與方所掌握的隱私圖內(nèi)部結(jié)構(gòu)。各方希望借助彼此的信息共同計(jì)算完整圖中結(jié)點(diǎn)間的最短路徑、中心度等信息,實(shí)現(xiàn)計(jì)算結(jié)果共享,同時(shí)不泄露自己所掌握圖中的隱私信息 。借助密碼學(xué)技術(shù),如秘密共享或多方安全計(jì)算等可以解決上述問題,但是存在通信開銷大、計(jì)算開銷大等弊端。差分隱私等圖隱私保護(hù)技術(shù)可以緩解開銷問題,但同時(shí)也可能面臨計(jì)算不準(zhǔn)確等挑戰(zhàn)。目前有少量的工作關(guān)注該問題,但僅僅集中在兩方的共同計(jì)算上。能否將其擴(kuò)展至多方共同計(jì)算,將會(huì)是未來可以探究的新場景。


6 總 結(jié) 


目前,圖數(shù)據(jù)在現(xiàn)實(shí)生活與研究中被廣泛的應(yīng)用。與此同時(shí),圖數(shù)據(jù)中也存在極高的隱私風(fēng)險(xiǎn)。而圖數(shù)據(jù)上豐富的信息,數(shù)據(jù)之間關(guān)聯(lián)性強(qiáng),給圖數(shù)據(jù)上的隱私保護(hù)帶來了巨大的挑戰(zhàn)。本文分析了圖的發(fā)布與收集中的隱私風(fēng)險(xiǎn),綜述了目前針對(duì)圖數(shù)據(jù) 隱私攻防的各類方案。綜合二者,本文在最后給出了目前圖數(shù)據(jù)上隱私保護(hù)研究的仍然存在的問題以及未來可能的研究方向??傊?,圖數(shù)據(jù)上的隱私保護(hù)研究雖然已經(jīng)取得了一定的進(jìn)展,但未來依舊有很高的研究價(jià)值與廣闊的研究空間。


*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉