集值數(shù)據(jù)發(fā)布中多級(jí)敏感模型及隱私保護(hù)方法研究.pdf_第1頁(yè)
已閱讀1頁(yè),還剩55頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、隨著互聯(lián)網(wǎng)技術(shù)的普及,電子商務(wù)、在線社會(huì)網(wǎng)絡(luò)、云計(jì)算等基于互聯(lián)網(wǎng)的應(yīng)用也得到迅速發(fā)展,網(wǎng)絡(luò)上正在快速聚集多類型、海量的數(shù)據(jù)資源。正是這些海量數(shù)據(jù)為人類進(jìn)行科學(xué)研究、商業(yè)規(guī)劃、經(jīng)濟(jì)分析、社會(huì)群體分析和決策等研究提供數(shù)據(jù)支撐,數(shù)據(jù)的利用體現(xiàn)出巨大的科學(xué)、經(jīng)濟(jì)和政治價(jià)值。在數(shù)據(jù)共享或利益的驅(qū)動(dòng)下,數(shù)據(jù)的公開(kāi)發(fā)布成為一個(gè)關(guān)鍵性需求,然而這些數(shù)據(jù)中往往包含個(gè)體的隱私信息,直接發(fā)布會(huì)造成隱私泄露,因此隱私保護(hù)是數(shù)據(jù)共享的基礎(chǔ)。
  集值數(shù)據(jù)作

2、為數(shù)據(jù)發(fā)布中一種重要的數(shù)據(jù)類型,它包含電子商務(wù)數(shù)據(jù)、患者醫(yī)療數(shù)據(jù)、用戶上網(wǎng)點(diǎn)擊流等。這類數(shù)據(jù)具有稀疏高維,數(shù)量大等特點(diǎn),沒(méi)有固定的準(zhǔn)標(biāo)識(shí)符,記錄中的敏感屬性存在多樣性。因此傳統(tǒng)的面向關(guān)系型數(shù)據(jù)的隱私保護(hù)方法并不適用子集值數(shù)據(jù)。面向集值數(shù)據(jù)的匿名化技術(shù)研究主要關(guān)注項(xiàng)目集的匿名,目前的研究有k-匿名,(h,k,p)匿名以及ρ-uncertainty等。k匿名方法通過(guò)分組泛化使得組內(nèi)記錄完全相同,數(shù)據(jù)失真嚴(yán)重,且當(dāng)組內(nèi)記錄均包含相同敏感值時(shí),

3、該方法無(wú)法抵御同質(zhì)攻擊。而(h,k,p)匿名和ρ-uncertainty方法沒(méi)有考慮集值數(shù)據(jù)中敏感項(xiàng)的敏感程度與隱私保護(hù)程度對(duì)應(yīng)關(guān)系而采用統(tǒng)一的隱私保護(hù)方法,這會(huì)導(dǎo)致部分?jǐn)?shù)據(jù)由于達(dá)不到匿名要求而被過(guò)分抑制,降低了數(shù)據(jù)的可用性。
  本文針對(duì)上述存在的問(wèn)題展開(kāi)一系列研究,首先對(duì)集值數(shù)據(jù)的隱私保護(hù)問(wèn)題進(jìn)行了深入的分析,然后詳細(xì)討論了現(xiàn)有隱私模型存在的缺陷,并給出具體解決方案。最后為了防止身份和敏感屬性泄露,提出了新的隱私保護(hù)模型并設(shè)計(jì)

4、了相應(yīng)的實(shí)現(xiàn)算法,更好地平衡了數(shù)據(jù)的可用性和隱私保護(hù)強(qiáng)度。
  本文的研究成果主要包含以下幾個(gè)方面:
  (1)首先對(duì)集值數(shù)據(jù)隱私保護(hù)的研究背景和現(xiàn)狀進(jìn)行了分析,詳細(xì)介紹了集值數(shù)據(jù)km-匿名,k-匿名,(h,k,p)匿名以及ρ-uncertainty等方法,并指出這些匿名方法存在的缺陷。其中km-匿名方法假設(shè)攻擊者的背景知識(shí)是m,通過(guò)自頂向下泛化保證包含m個(gè)項(xiàng)目的記錄至少有k條,然而實(shí)際應(yīng)用中攻擊者的背景知識(shí)是很難確定的。k

5、-匿名模型在此基礎(chǔ)上改進(jìn),假設(shè)攻擊者的背景知識(shí)是任意的,通過(guò)構(gòu)造k條相同記錄使得攻擊者無(wú)法辨別其中任意一條,從而達(dá)到隱私保護(hù)的目的。但集值數(shù)據(jù)中很多記錄并不包含敏感信息,發(fā)布出去不會(huì)造成隱私泄露,采用k-匿名方法由于“過(guò)保護(hù)”會(huì)造成大量有用信息丟失,且該方法無(wú)法抵御同質(zhì)攻擊。(h,k,p)匿名以及ρ-uncertainty方法的主要缺陷是未考慮不同敏感值之間敏感性的差異化。
  (2)根據(jù)集值數(shù)據(jù)的特點(diǎn),本文提出為敏感性分級(jí)的方法

6、,該方法給所有敏感值指定敏感等級(jí),并為每個(gè)敏感等級(jí)設(shè)置不同的隱私閾值。在此基礎(chǔ)上,設(shè)計(jì)了(p,k,ρ)隱私保護(hù)模型。在該模型中,假設(shè)攻擊者的背景知識(shí)只是部分非敏感信息p,對(duì)這部分信息的處理方法是采用聚類,使其滿足k匿名,同時(shí)為不同的敏感值指定敏感等級(jí),然后根據(jù)敏感等級(jí)的不同等級(jí)逐條檢測(cè)是否有敏感項(xiàng)超過(guò)指定閾值,對(duì)超過(guò)閾值的敏感項(xiàng)進(jìn)行抑制。(p,k,ρ)隱私保護(hù)模型結(jié)合k-匿名和ρ-uncertainty方法的思想,改進(jìn)它們的不足,考慮敏

7、感項(xiàng)分布對(duì)數(shù)據(jù)敏感度的影響,一定程度上能更好的提高數(shù)據(jù)的效用性,同時(shí)該模型能很好的防止鏈接攻擊并降低敏感屬性泄露的風(fēng)險(xiǎn)。
  (3)基于以上隱私模型,本文設(shè)計(jì)了一種基于貪心策略的聚類更新(p,k,ρ)匿名算法,該算法按隱私限制集p的支持度進(jìn)行排序,以信息損失作為度量標(biāo)準(zhǔn),每次選擇支持度最大的p,從中選擇泛化信息損失最小的兩個(gè)項(xiàng)目進(jìn)行聚類,直到所有p滿足k匿名。同時(shí)檢測(cè)是否有敏感關(guān)聯(lián)規(guī)則超過(guò)閾值ρ,對(duì)超過(guò)閾值的敏感項(xiàng)目進(jìn)行抑制。最后

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論