![](https://static.zsdocx.com/FlexPaper/FileRoot/2019-3/14/18/e8350dab-d4d3-4c44-a316-8c9252d2e762/e8350dab-d4d3-4c44-a316-8c9252d2e762pic.jpg)
![基于基因表達(dá)式編程的中文文本關(guān)鍵詞提取算法研究.pdf_第1頁(yè)](https://static.zsdocx.com/FlexPaper/FileRoot/2019-3/14/18/e8350dab-d4d3-4c44-a316-8c9252d2e762/e8350dab-d4d3-4c44-a316-8c9252d2e7621.gif)
版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、當(dāng)前計(jì)算技術(shù)特別是因特網(wǎng)技術(shù)發(fā)展迅猛,信息技術(shù)正深刻地影響著人們的生活。Blog、電子文獻(xiàn)以及數(shù)據(jù)內(nèi)容形成了文本的數(shù)據(jù)海洋,亟需為用戶(hù)提供高效的文本信息處理服務(wù)。文本信息處理包括文本分類(lèi)、文本聚類(lèi)、文本挖掘和近似查詢(xún)處理等內(nèi)容,而文本關(guān)鍵詞提取在上述方面有著廣泛的應(yīng)用,它不僅是進(jìn)行這些工作不可缺少的基礎(chǔ)和前提,也是互聯(lián)網(wǎng)上信息建庫(kù)的一項(xiàng)重要工作。文本關(guān)鍵詞的自動(dòng)提取是信息檢索和摘要生成的基礎(chǔ),在Web頁(yè)檢索、文檔聚類(lèi)、文檔摘要提取、文本
2、挖掘等方面都有廣泛的應(yīng)用。關(guān)鍵詞提取(keywords extraction),其目的是自動(dòng)生成準(zhǔn)確反映文本主題的關(guān)鍵詞,被認(rèn)為是信息檢索等技術(shù)的預(yù)處理過(guò)程。國(guó)外對(duì)該技術(shù)的研究比較早且比較深入,已經(jīng)取得了不少研究成果;但中文關(guān)鍵詞提取的研究相對(duì)落后,存在大量開(kāi)發(fā)問(wèn)題。雖然經(jīng)過(guò)眾多研究者的努力,取得了一定的進(jìn)展,但仍然還有很多問(wèn)題有待進(jìn)一步研究和解決。
首先,簡(jiǎn)要介紹了自然語(yǔ)言處理、文本信息預(yù)處理和特征項(xiàng)等相關(guān)知識(shí),分析和比
3、較了常用的關(guān)鍵詞提取算法,討論了用于英文關(guān)鍵詞提取的GenEx系統(tǒng)、樸素貝葉斯提取算法以及處理漢語(yǔ)文本的PAT TREE、最大熵模型等相關(guān)工作,并進(jìn)行了歸類(lèi)。
然后,基于三個(gè)文本特征項(xiàng),提出了考慮候選詞權(quán)重計(jì)算的中文文本關(guān)鍵詞提取算法TFLD(term frequency,location & distance algorithm),該算法基于詞頻、區(qū)域位置以及分詞距離次序三種特征項(xiàng)屬性。TFLD算法的關(guān)鍵是詞語(yǔ)權(quán)重計(jì)算模
4、型的構(gòu)造。本文引入GEP技術(shù)來(lái)優(yōu)化求解該計(jì)算模型,以GEP進(jìn)化個(gè)體與訓(xùn)練樣例間的關(guān)鍵詞有序序列差異的總方差作為進(jìn)化的適應(yīng)度函數(shù),通過(guò)GEP進(jìn)化算法使得關(guān)鍵詞提取算法詞語(yǔ)權(quán)重公式的表達(dá)式結(jié)構(gòu)滿(mǎn)足優(yōu)化閾值的約束。在對(duì)詞語(yǔ)權(quán)重公式進(jìn)行優(yōu)化結(jié)構(gòu)的基礎(chǔ)上,引入了LMS(Least Mean Square)法則訓(xùn)練該關(guān)鍵詞提取模型的調(diào)節(jié)因子。
最后,TFLD算法與其他方法通過(guò)評(píng)價(jià)實(shí)驗(yàn)進(jìn)行比較。結(jié)果表明,該方法有效提高了關(guān)鍵詞提取的精度
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于基因表達(dá)式編程的分類(lèi)算法研究.pdf
- 基于基因表達(dá)式編程的分類(lèi)算法研究及應(yīng)用.pdf
- 基因表達(dá)式編程算法的研究與應(yīng)用.pdf
- 基于詞跨度的中文文本關(guān)鍵詞提取及在文本分類(lèi)中的應(yīng)用.pdf
- 基于基因表達(dá)式編程算法的路基工程問(wèn)題研究.pdf
- 文本挖掘關(guān)鍵詞提取算法的研究.pdf
- 基于基因表達(dá)式編程的戰(zhàn)斗人員編組算法.pdf
- 基因表達(dá)式編程算法及其應(yīng)用研究.pdf
- 改進(jìn)的基因表達(dá)式編程算法的研究及其應(yīng)用.pdf
- 基于多表達(dá)式編程的分類(lèi)算法研究.pdf
- 中文文本關(guān)鍵詞提取和文本聚類(lèi)中聚類(lèi)中心點(diǎn)選取算法研究.pdf
- 基因表達(dá)式編程中的轉(zhuǎn)基因關(guān)鍵技術(shù)研究.pdf
- 基于漢字?jǐn)?shù)學(xué)表達(dá)式的中文文本零水印方法研究.pdf
- 基于基因表達(dá)式編程的大壩變形預(yù)測(cè)模型研究.pdf
- 基于基因表達(dá)式編程的車(chē)間動(dòng)態(tài)調(diào)度方法研究.pdf
- 基于基因表達(dá)式編程的煤礦地表變形預(yù)測(cè)研究.pdf
- 基于基因表達(dá)式編程的分類(lèi)與聚類(lèi)研究.pdf
- 基因表達(dá)式編程的早熟抑制策略研究.pdf
- 中文關(guān)鍵詞提取技術(shù).pdf
- 基于多顯型染色體的基因表達(dá)式編程算法及其應(yīng)用.pdf
評(píng)論
0/150
提交評(píng)論