版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
1、因特網(wǎng)上的文本信息的爆炸式增長給文本分類的精度與速度提出了新的標(biāo)準(zhǔn)與挑戰(zhàn)。這就要求文本分類在提高精度的同時,還要進一步提升訓(xùn)練與分類速度。為了面對時代的挑戰(zhàn),作者從特征選擇與學(xué)習(xí)算法兩個角度展開了深入的研究,取得了一系列突破性進展。 作者從基于分辨矩陣的粗糙集屬性約簡中受到啟發(fā),提出了一系列基于粗集理論的文本特征選擇算法,即DBl、DB2、LDB。實驗結(jié)果表明,DB2與LDB極為穩(wěn)定,達到了與信息增益相當(dāng)?shù)木龋划?dāng)特征數(shù)較少時,
2、DB2與I,DB的精度要明顯高于信息增益。同時,在時間上也具有相當(dāng)?shù)膬?yōu)勢,DB2與LDB的時間代價與文檔頻次、互信息、CHI統(tǒng)計大體相當(dāng),但明顯低于信息增益。 “沒有免費的午餐定理”表明:任何一種模式分類算法都不存在“與生俱來”的優(yōu)越性。換句話說,所有分類器都存在一定程度上的“分類器偏差”。原因很簡單,因為所有分類器都建立在某種假設(shè)(模型)之上。通常,這個偏差會導(dǎo)致訓(xùn)練集與測試集錯誤率增大。很自然地,作者就考慮采用訓(xùn)練集錯分樣本
3、來在線修正分類器模型。這便是拉推策略的基本思想。作者將拉推策略應(yīng)用到三個基本的分類器,即中心法、貝葉斯、最近鄰,于是得到三個修正的分類器,即RCC、RNB、RKNN。其中RCC的性能最為卓越。實驗結(jié)果表明算法RCC取得了逼近SVM的分類精度,但運行時間需求卻與問題規(guī)模成線性關(guān)系,因此實際運行時間要遠遠低于SVM。 但是,拉推策略只是降低了經(jīng)驗誤差,還沒有有效地降低推廣誤差。作者的一個非常直接的想法就是,不但要求訓(xùn)練樣本與正確類別
4、的相似度大于所有與其它類別的相似度,而且要至少存在一個間隔,即近似Margin。算法的具體做法就是,不但對誤分樣本要修正相應(yīng)類代表,而且對Margin較小的樣本也要修正相應(yīng)類代表。實驗結(jié)果表明該算法既能降低訓(xùn)練集誤差,又能在一定程度上降低推廣誤差。并且,分類質(zhì)量要比拉推策略高出1個百分點。 考慮到層次化分類的實用性與有效性。作者將拉推策略推廣到層次化分類。作者給出了兩種將拉推策略推廣到層次模型的方法。其一是選取整棵樹進行拉推修正
5、。其二是選取每個非葉子節(jié)點進行拉推修正。實驗結(jié)果表明,層次拉推策略的分類質(zhì)量與非層次拉推策略基本相當(dāng),但運行時間上具有明顯的優(yōu)越性。 概念索引采用類中心作為壓縮空間的坐標(biāo)。但是,簡單地采用類中心來代表一個類別,往往受到類中樣本分布情況的影響。因此,為了提高類中心的表達能力,作者借助于拉推策略來修正類中心。然后再把修正的類中心作為壓縮空間的坐標(biāo)。實驗結(jié)果表明,修正的概念索引在精度上要明顯優(yōu)于普通的概念索引。同時,修正的概念索引在與
6、SVM分類器的兼容性方面表現(xiàn)得更為出色。 概念索引使用中心法的類代表(類中心)來作為“概念”。于是,作者把“概念”進行推廣。也就是說,不僅僅可以使用類中心來作為“概念”,還可以使用其它類代表,如Winnow的權(quán)向量、貝葉斯的類概率與詞概率、KNN的類代表、SVM的支持向量等等,來作為“概念”。作者把采用推廣的“概念”來進行壓縮的方法統(tǒng)稱為“分類器索引”。實驗結(jié)果表明分類器索引表現(xiàn)出了非常穩(wěn)定的性能。 前面所提到的分類器修
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 高性能特征選擇及文本分類算法研究.pdf
- 文本分類算法研究.pdf
- 自動文本分類算法研究.pdf
- 中文文本分類算法研究.pdf
- 多標(biāo)簽文本分類算法研究.pdf
- 基于GPU的文本分類算法研究.pdf
- 文本分類算法的研究與改進.pdf
- 基于TFIDF的文本分類算法研究.pdf
- 支持向量機文本分類算法研究.pdf
- 中文多標(biāo)簽文本分類算法研究.pdf
- 中文文本分類中文本表示及分類算法研究.pdf
- 文本分類算法的研究與實現(xiàn).pdf
- 文本分類中特征選擇算法研究.pdf
- 中文文本分類算法比較研究.pdf
- KNN文本分類及特征加權(quán)算法研究.pdf
- 基于特征權(quán)重算法的文本分類研究.pdf
- 交叉覆蓋算法下文本分類的研究.pdf
- 文本分類中特征選擇和分類算法的研究.pdf
- 高性能包分類算法研究.pdf
- 文本分類相關(guān)算法的研究與實現(xiàn).pdf
評論
0/150
提交評論