版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、數(shù)據(jù)挖掘是指從巨量數(shù)據(jù)中獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平凡過程,其目的就是要從大量數(shù)據(jù)中找出有意義的模式,因此具有廣泛的應用價值。在數(shù)據(jù)挖掘的研究中,如何高效的發(fā)現(xiàn)滿足用戶要求的關聯(lián)規(guī)則已經(jīng)成為一個核心問題。 抽樣是指選取給定數(shù)據(jù)庫D的隨機樣本S,在S中而不是在D中進行數(shù)據(jù)挖掘。抽樣方法比較適合于對大型數(shù)據(jù)庫的挖掘。分布式情況下,各站點擁有的數(shù)據(jù)量較大時,可以采用抽樣方法在各站點隨機抽樣獲得樣本集,將這些隨
2、機樣本的挖掘結(jié)果作為對整個分布式數(shù)據(jù)庫挖掘的結(jié)果,提高挖掘的效率。 動態(tài)項集計數(shù)技術將數(shù)據(jù)庫劃分為標記開始點的塊,不像Apriori僅在每次掃描之前確定新的候選,在這種變形中,可以在任何開始點添加新的候選集。該技術動態(tài)地評估已被計數(shù)的所有項集的支持度,如果一個項集的所有子集已被確定為頻繁的,則添加它作為新的候選,結(jié)果算法需要的數(shù)據(jù)庫掃描比Apriori少,減輕了I/O負載,提高了挖掘的效率。 影響分布式數(shù)據(jù)挖掘效率的主要
3、因素是分布式數(shù)據(jù)庫中各節(jié)點間的通信量。元學習的概念是由Prodromidis等人于2000年首先提出的,該方法采用集成學習(ensemblelearning)的方式來生成最終的全局預測模型。其優(yōu)點在于:在基學習階段,各個結(jié)點可以自主地選擇合適的學習算法來生成局部的基分類器(baseclassifiers),與此同時各結(jié)點間不存在任何通訊與同步開銷,因此系統(tǒng)中各結(jié)點間的通信量較少,效率較高。 由二元關系導出的概念格作為一種非常有用
4、的形式化工具,體現(xiàn)了概念內(nèi)涵和外延的統(tǒng)一,反映了對象和特征間的聯(lián)系以及概念的泛化與例化關系。在挖掘規(guī)則知識過程中,規(guī)則本身是用內(nèi)涵集之間的關系來描述,而體現(xiàn)于相應外延集之間的包含關系。而由于概念格節(jié)點之間的關系體現(xiàn)了概念之間泛化和例化關系,因此非常適合作為規(guī)則發(fā)現(xiàn)的基礎性數(shù)據(jù)結(jié)構(gòu)。 本文詳細介紹了關聯(lián)規(guī)則挖掘的基本概念和相關技術,結(jié)合動態(tài)項集計數(shù)和抽樣的思想,利用元學習策略來產(chǎn)生頻繁項集,提出了一個分布式關聯(lián)規(guī)則挖掘算法DASM
5、;引進了相似度的概念,并用之提高了挖掘結(jié)果的精確度。理論分析以及實驗均表明,DASM算法具有較高的挖掘效率和較低的通信量,適用于對效率要求較高的應用領域。此外,介紹了概念格和關聯(lián)規(guī)則發(fā)現(xiàn)之間的關系,描述了對于分布式環(huán)境下利用概念格理論、抽樣方法進行關聯(lián)規(guī)則提取的解決方法,并給出了一個利用概念格提取無冗余關聯(lián)規(guī)則的分布式算法DSCL算法。 我們的創(chuàng)新點在于:1.將動態(tài)項集計數(shù)方法和抽樣方法相結(jié)合,解決了關聯(lián)規(guī)則挖掘算法I/O負載過
6、重的問題,可以很好地滿足對效率比完備性要求更高的應用領域的需要。 2.在分布式算法中,使用元學習分布式策略,使分布式挖掘規(guī)則的過程中的通信量僅和產(chǎn)生的頻繁項集個數(shù)相關,減少了分布式系統(tǒng)中各站點間的通信量,解決了目前分布式算法通信量較大的問題。 3.將概念格和抽樣方法相結(jié)合,利用概念格的特性避免了在發(fā)現(xiàn)規(guī)則的過程中需要多次掃描數(shù)據(jù)庫的問題,并使用抽樣方法減少了數(shù)據(jù)量,進一步減少了I/O負載,提高了算法的挖掘效率。另外,應用
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 分布式關聯(lián)規(guī)則挖掘算法研究.pdf
- 分布式關聯(lián)規(guī)則挖掘若干算法研究.pdf
- 基于MapReduce的分布式關聯(lián)規(guī)則挖掘算法研究.pdf
- 分布式安全關聯(lián)規(guī)則挖掘算法研究.pdf
- 基于組播的分布式關聯(lián)規(guī)則挖掘算法研究.pdf
- 分布式關聯(lián)規(guī)則挖掘算法的研究與應用.pdf
- 關聯(lián)規(guī)則分布式挖掘算法研究和實現(xiàn).pdf
- 隱私保護的分布式關聯(lián)規(guī)則挖掘算法研究.pdf
- 分布式數(shù)據(jù)環(huán)境下關聯(lián)規(guī)則挖掘算法研究.pdf
- 分布式關聯(lián)規(guī)則挖掘若干算法研究與實現(xiàn).pdf
- 面向關聯(lián)規(guī)則挖掘的分布式隱私保護算法研究.pdf
- 隱私保護分布式關聯(lián)規(guī)則挖掘.pdf
- 帶補償?shù)目焖俜植际疥P聯(lián)規(guī)則挖掘算法的研究.pdf
- 基于高級SQL查詢的分布式多維關聯(lián)規(guī)則挖掘算法的研究.pdf
- 基于CSampling算法的分布式關聯(lián)規(guī)則挖掘系統(tǒng)的研究與設計.pdf
- 保護隱私的分布式關聯(lián)規(guī)則挖掘研究.pdf
- 基于概念格模型的分布式關聯(lián)規(guī)則挖掘研究.pdf
- 基于RSA隱私保護的分布式關聯(lián)規(guī)則挖掘方法研究.pdf
- 多域分布式網(wǎng)絡的告警模糊關聯(lián)規(guī)則挖掘.pdf
- 分布式關聯(lián)規(guī)則挖掘方法及應用研究.pdf
評論
0/150
提交評論