聚類分析中的相似性度量及其應用研究.pdf_第1頁
已閱讀1頁,還剩116頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、在機器學習研究中,聚類作為一種無監(jiān)督學習方式,得到了來自統(tǒng)計學、計算機科學等領域研究者的廣泛關注,它不但是數(shù)據(jù)挖掘的重要組成部分,也是模式識別領域中備受關注的基礎問題。在聚類分析中,數(shù)據(jù)元素是按照相互之間的相似性進行分類的。聚類的目標就是最大化同類數(shù)據(jù)元素之間相似性的同時,最大化不同類數(shù)據(jù)元素之間的差異性。并且,由于聚類的無監(jiān)督特性,對于聚類結果合理性的判斷也是需要探討的課題。綜合來看,聚類分析涉及到三類相似性度量,即數(shù)據(jù)對象之間的相似

2、性、類對象之間的相似性以及不同聚類結果之間的相似性。因此,采用聚類分析方法來完成圖像處理任務時,相似性度量是其中的關鍵問題。
  本文首先對聚類分析的概念、處理過程、算法分類、相似性度量問題以及聚類在圖像處理中的應用作了簡要概述。然后本文以信息論中的經典理論為依據(jù),從信息的角度分別對聚類分析中三類相似性度量問題進行了探討,并針對圖像處理中的幾類問題,即圖像聚類、輪廓編組、圖像過分割的處理以及圖像分割的評估,驗證了所提出方法的合理性

3、和有效性。本文的主要創(chuàng)新點簡要概括為:
  第一,數(shù)據(jù)對象之間的相似性度量之一——采用Bregman散度處理復雜數(shù)據(jù)對象的相似性度量。在對圖像數(shù)據(jù)進行相似性度量時,需要同時考慮兩方面的問題,即如何對圖像數(shù)據(jù)進行表示,以及采用何種度量方法評價兩個圖像數(shù)據(jù)對象之間的相似程度。本文提出在信息瓶頸理論框架下,將“詞袋”模型的圖像表示與Bregman散度度量相結合,實現(xiàn)了更具有語義信息的圖像內容聚類。該方法概括來說有以下三個特點:采用“詞袋

4、”模型的圖像表示可以利用多種先進的特征提取算法(如各種興趣點檢測技術)捕捉到圖像中更豐富的內容信息,并產生基于視覺單詞的特征分布;根據(jù)信息瓶頸理論,圖像聚類的目標是使得聚類后圖像變量與特征變量之間的互信息損失量最小;采用Bregman散度聚類算法最小化互信息損失量,算法步驟與k-means相似,且Bregman算法中的KL距離對應著k-means算法中的歐氏距離。
  第二,數(shù)據(jù)對象之間的相似性度量之二——利用數(shù)據(jù)對象之間的多元相

5、似性關系提高聚類算法的抗干擾能力。對于用聚類方法來進行輪廓編組,我們提出在基于信息的聚類方法的框架下,通過多特征編組線索來計算數(shù)據(jù)對象之間的“集合相似度”,而不再限于二元相似性度量值,得到的度量量值也稱為多特征相似度或多元相似度。然后,我們將多元相似度值作為輸入,用信息聚類的方法來對邊緣特征進行編組。實驗結果表明,相對于二元相似度,基于多元相似度的輪廓編組質量在相同誤差或干擾條件下(如存在特征描述誤差及背景噪聲數(shù)據(jù))有明顯的提高。

6、>  第三,類對象之間的相似性度量——提出將信息學習理論中定義的信息勢和Renyi“交叉”熵用于聚類中子類間的相似性度量。對于一些容易產生過分割的算法,我們可在初始分割的基礎上,根據(jù)類間信息熵的大小,采用聚合迭代的方法得到層次化的聚類結構。實驗結果顯示,在幾種具有代表性的人造數(shù)據(jù)集上,基于信息熵的類間距離度量方法比三種傳統(tǒng)度量方法(單聯(lián)接、完全聯(lián)接和平均聯(lián)接)有更好的層次化聚類效果。此外,我們測試了在圖像過分割的情況下,類間信息熵對于子

7、分割區(qū)域的合并效果。
  第四,不同聚類結果之間的相似性度量——擴展傳統(tǒng)的正則化互信息度量指標,使其應用于算法聚類結果與多個標準聚類結果進行比較的情況。在實際應用中,對于某一幅圖像,人為標定的標準分割結果通常不是唯一的,不同的測試對象會根據(jù)主觀經驗得出不同粒度等級下的分割結果。為了體現(xiàn)分割結果的不確定性和多樣性,充分利用人為標定的分割信息,聚類結果之間的相似性度量應擴展為可處理包含多幅標準分割圖像的情況,因此我們提出了一種基于信息

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論