基于空間單元密度的聚類算法研究.pdf_第1頁
已閱讀1頁,還剩53頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、隨著軟件、硬件和網絡技術的快速發(fā)展,積累的歷史數據成千上萬,在這些數據中存在著大量有用的信息。數據挖掘就是用來從大量的、不完全的、有噪聲的、模糊的、隨機數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識。在數據挖掘包含的眾多研究領域中,聚類是一種很有用的技術,它能夠在潛在的數據中發(fā)現(xiàn)令人感興趣的數據分布模式。實際的應用對聚類分析提出了如下要求:可伸縮性、處理不同類型屬性的能力、發(fā)現(xiàn)任意形狀的聚類、用于決定輸入參數的領

2、域知識最小化、處理噪聲數據的能力、對于輸入記錄的順序不敏感、高維性、基于約束的聚類以及聚類結果的可解釋性和可用性。 目前,已經提出了很多聚類算法,基本上分為以下幾類:劃分方法、層次方法、基于網格的方法、基于模型的方法和基于密度的方法。這些方法各有優(yōu)缺點,能夠針對不同的領域解決不同的問題。但在聚類分析中還存在一些有待解決的問題。 本文根據數據分布的特點,提出了一種基于空間單元密度的快速聚類算法SUDBC,該算法首先將被聚類

3、的數據劃分成若干個空間單元,然后基于空間單元密度將密度超過給定閾值的鄰居單元合并為一個類。在存儲空間單元時,通過建立哈希表提高查找速度。并通過實驗驗證了這一思想的正確性。實驗結果證明了SUDBC算法具有處理任意形狀的數據和對噪音數據不敏感的特點。通過與DBSCAN算法相比較,可以看出SUDBC是一種快速的聚類算法。該算法具有如下優(yōu)點:(1)不用計算兩點間的距離;(2)只需對數據進行一遍掃描,故具有近似線性的時間復雜性;(3)主要基于空間

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論