基于RLS-MARS特征選擇的文本分類方法研究.pdf_第1頁(yè)
已閱讀1頁(yè),還剩62頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、隨著來(lái)自于互聯(lián)網(wǎng)和企業(yè)內(nèi)部網(wǎng)的信息不斷增多,需要一種工具來(lái)幫助人們對(duì)這些信息資源進(jìn)行組織、存儲(chǔ)和訪問(wèn)。自動(dòng)文本分類是主要工具之一。文本分類(Text Classification,TC)就是將文檔自動(dòng)指派到預(yù)先設(shè)定類別的過(guò)程。自動(dòng)文本分類作為處理和組織大量文本數(shù)據(jù)的關(guān)鍵技術(shù),可以在較大程度上解決信息雜亂現(xiàn)象的問(wèn)題,方便用戶準(zhǔn)確地得到所需的信息。 文本分類的一個(gè)主要的問(wèn)題就是高維的特征空間。這些特征空間是由文檔中的詞或詞組構(gòu)成的,

2、對(duì)于一個(gè)中等程度的文檔集可能就會(huì)形成成百上千萬(wàn)的特征項(xiàng)。對(duì)于許多的學(xué)習(xí)算法來(lái)說(shuō)這么高維的特征項(xiàng)是無(wú)法處理的,過(guò)大的特征空間會(huì)導(dǎo)致“維數(shù)災(zāi)難”,從而降低分類器的泛化能力,出現(xiàn)“過(guò)學(xué)習(xí)”的現(xiàn)象。因而在不影響特征準(zhǔn)確度的情況下減少原來(lái)的文本描述空間是很有必要的。特征選擇與特征抽取有助于在文本數(shù)據(jù)集中移除噪音特征,降低維數(shù)。特征抽取是將原始特征空間投影到一個(gè)低維空間從而創(chuàng)造出新的特征,通常是原始特征的線性或非線性組合。特征抽取有助于解決多義詞、

3、同義詞問(wèn)題,但是不能給出新特征的語(yǔ)義解釋。特征選擇是利用某種評(píng)價(jià)函數(shù)獨(dú)立地對(duì)每個(gè)原始特征項(xiàng)打分,按分值從高到低排序,從中選取若干分值最高的特征項(xiàng)。 特征選擇方法的主要目的是在原始的特征空間中選擇一個(gè)特征子集,組成一個(gè)低維空間來(lái)表示原始特征空間。將Efron的Least angle regression(最小角度回歸)方法和Regularized Least Squares(規(guī)則最小二乘)方法相結(jié)合,提出了規(guī)則最小二乘多角度回歸(

4、RIS-MARS)算法。該方法試圖在特征空間中,尋找一組方向,使得特征梯度矩陣能沿著這一方向變化,且特征梯度矩陣的模值越來(lái)越小,在這一過(guò)程中,生成了一系列有序特征。新模型中特征選擇方法主要考慮了潛在變量之間(文本詞之間)的關(guān)系,試圖從原始特征集合中選取有效顯著特征。這些被選出來(lái)的特征之間的相關(guān)性很小,且與原始特征同分布。 通過(guò)RLS-MARS特征選擇技術(shù),來(lái)提取核心特征是在多維空間中按照特征的特性,設(shè)計(jì)算法在多角度中計(jì)算出相對(duì)最

5、小角度,選出梯度下降方向,重新設(shè)置梯度向量,從而提取到核心特征。RLS-MARS特征選擇技術(shù),主要是研究在低維數(shù)情況下特征選擇的情況,在多個(gè)向量夾角中選出當(dāng)前情況下的最小角度,從而得到當(dāng)前梯度向量的梯度下降方向,更新梯度向量值,選出函數(shù)擬合變量,從而篩選出合理的特征。 我們的模型分別考察了類別不均衡與類別均衡情況下,參數(shù)二范數(shù)規(guī)范和參數(shù)二范數(shù)忽略,各個(gè)數(shù)據(jù)集中各類的F1評(píng)估值情況。在Reuter-21578語(yǔ)料庫(kù)上的試驗(yàn)表明,R

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論