![](https://static.zsdocx.com/FlexPaper/FileRoot/2019-3/11/10/994b773f-627f-421c-8192-a354f36bd60d/994b773f-627f-421c-8192-a354f36bd60dpic.jpg)
![Web文本分類(lèi)關(guān)鍵技術(shù)研究.pdf_第1頁(yè)](https://static.zsdocx.com/FlexPaper/FileRoot/2019-3/11/10/994b773f-627f-421c-8192-a354f36bd60d/994b773f-627f-421c-8192-a354f36bd60d1.gif)
版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、九十年代以來(lái),Internet以驚人的速度向前發(fā)展,Web作為信息制造、發(fā)布、加工與處理的主要平臺(tái),出現(xiàn)了海量的、異構(gòu)的、動(dòng)態(tài)的、半結(jié)構(gòu)化或非結(jié)構(gòu)化的信息資源,并且在這些Web信息中有80%以上的信息是以Web文本的形式存在的,容量增長(zhǎng)迅速,平均每天增加100萬(wàn)個(gè)頁(yè)面。隨著Internet這樣的擴(kuò)展和大量在線文本的出現(xiàn),將標(biāo)志這巨大的非結(jié)構(gòu)型或半結(jié)構(gòu)型數(shù)據(jù)海洋中,蘊(yùn)藏著極其豐富的有用信息即知識(shí)。如何在Web所提供的海量信息中發(fā)現(xiàn)有用的信
2、息和知識(shí)模式并加以有效利用,一直是人們努力探索的問(wèn)題。搜索引擎的分類(lèi)瀏覽模式,檢索效果好,能協(xié)助用戶(hù)尋找所需信息,但是需要人工維護(hù),維護(hù)成本高,信息更新慢,維護(hù)的工作量大,同時(shí)搜索結(jié)果精度不高,召回率有限,更不能滿足用戶(hù)給出特殊的個(gè)性化服務(wù)要求。因此,基于Web文本數(shù)據(jù)的知識(shí)發(fā)現(xiàn)應(yīng)運(yùn)而生。Web文本分類(lèi)可以有效的解決上述問(wèn)題,并能依據(jù)網(wǎng)頁(yè)中所包含的文本的語(yǔ)義將大量的網(wǎng)頁(yè)自動(dòng)分門(mén)別類(lèi),從而更好地幫助人們把握Web信息,幫助用戶(hù)快速、準(zhǔn)確的
3、對(duì)目標(biāo)知識(shí)進(jìn)行定位,縮減搜索空間,加快檢索速度,提高查詢(xún)精度。 Web文本分類(lèi)是Web文本挖掘的關(guān)鍵組成部分。本文在分析Web文本挖掘和Web文本分類(lèi)的研究現(xiàn)狀和存在問(wèn)題的基礎(chǔ)上,針對(duì)復(fù)雜、海量及半結(jié)構(gòu)化與非結(jié)構(gòu)化的文本數(shù)據(jù)類(lèi)型的特性,從知識(shí)發(fā)現(xiàn)內(nèi)在認(rèn)知機(jī)理研究的角度出發(fā),把知識(shí)發(fā)現(xiàn)過(guò)程視為認(rèn)知過(guò)程,把知識(shí)發(fā)現(xiàn)系統(tǒng)視為認(rèn)知系統(tǒng),建立文本庫(kù)與知識(shí)庫(kù)的內(nèi)在聯(lián)系“通道"--雙庫(kù)協(xié)同機(jī)制,用知識(shí)庫(kù)的知識(shí)去參與、制約與驅(qū)動(dòng)知識(shí)發(fā)現(xiàn)的發(fā)掘過(guò)
4、程,構(gòu)造啟發(fā)型與中斷型協(xié)調(diào)器來(lái)模擬認(rèn)知心理學(xué)的“創(chuàng)建意向”和"心理信息修復(fù)”特征,分別實(shí)現(xiàn)系統(tǒng)自主發(fā)現(xiàn)知識(shí)短缺來(lái)形成“定向發(fā)掘”和實(shí)現(xiàn)知識(shí)庫(kù)實(shí)時(shí)維護(hù)的“定向搜索”,模擬人類(lèi)學(xué)習(xí)方式,實(shí)現(xiàn)文本庫(kù)信息擴(kuò)張機(jī)制的漸增、遞進(jìn)式的知識(shí)發(fā)現(xiàn)。從而在Web文本分類(lèi)進(jìn)程與知識(shí)庫(kù)的廣泛聯(lián)系中,改進(jìn)與優(yōu)化了Web文本分類(lèi)的結(jié)構(gòu)、過(guò)程與運(yùn)行機(jī)制,形成了Web文本分類(lèi)系統(tǒng)的改進(jìn)的結(jié)構(gòu)模型——算法——應(yīng)用一體化的線路。進(jìn)一步研究了Web文本分類(lèi)過(guò)程中的關(guān)鍵技術(shù),
5、如文本采集、分詞、特征降維、特征權(quán)值計(jì)算、分類(lèi)等若干關(guān)鍵技術(shù)。針對(duì)不完備信息、不確定信息、知識(shí)發(fā)掘認(rèn)知自主性,分別給出了結(jié)合粗糙集、模糊集和內(nèi)在認(rèn)知機(jī)理的Web文本分類(lèi)的混合的改進(jìn)算法。本文主要研究?jī)?nèi)容和創(chuàng)新點(diǎn)具體包括以下幾個(gè)方面: (1)構(gòu)建Web文本分類(lèi)系統(tǒng)模型。 給出了文本預(yù)處理模塊、分類(lèi)模塊、分類(lèi)質(zhì)量評(píng)價(jià)模塊的功能和內(nèi)容以及整體模型框架,對(duì)Web文本分類(lèi)系統(tǒng)模型中的關(guān)鍵技術(shù):文本采集、分詞處理、文本的特征表示、特
6、征降維、權(quán)重計(jì)算和分類(lèi)技術(shù)進(jìn)行了研究,同時(shí)描述了影響分類(lèi)性能評(píng)價(jià)的五個(gè)因素和幾種常用的分類(lèi)質(zhì)量評(píng)價(jià)方法。 (2)給出一種Web文本采集算法和采集系統(tǒng)。 針對(duì)web文本采集技術(shù)、文本采集系統(tǒng)中的數(shù)據(jù)庫(kù)設(shè)計(jì)方法、采集系統(tǒng)功能設(shè)計(jì)內(nèi)容、采集算法進(jìn)行了研究,描述了從Internet上采集web文本形成web的TXT文件集的具體采集過(guò)程。 (3)提出一種基于雙庫(kù)協(xié)同機(jī)制與粗糙集的Web文本分類(lèi)關(guān)聯(lián)規(guī)則挖掘算法。 采
7、用互信息計(jì)算公式進(jìn)行特征的初步選擇和用粗糙集理論進(jìn)行進(jìn)一步屬性約簡(jiǎn)相結(jié)合,實(shí)現(xiàn)了文本特征的更有效降維處理,大大縮減了文本高維特征空間。文本分類(lèi)規(guī)則挖掘結(jié)合基于內(nèi)在認(rèn)知的雙庫(kù)協(xié)同機(jī)制進(jìn)行關(guān)聯(lián)分析方法和有效的進(jìn)一步規(guī)則優(yōu)化提取,啟用中斷型協(xié)調(diào)器,經(jīng)過(guò)這樣的處理后,規(guī)則中的條件屬性數(shù)目、規(guī)則沖突被盡可能減少,規(guī)則的適應(yīng)性更強(qiáng)。再將兩結(jié)合的特征降維方法和多結(jié)合的分類(lèi)規(guī)則挖掘方法混合使用,更十分有效實(shí)現(xiàn)了文本的分類(lèi)。對(duì)混合挖掘算法進(jìn)行了實(shí)驗(yàn),并結(jié)
8、合常用的關(guān)聯(lián)規(guī)則分類(lèi)法和SVM方類(lèi)法對(duì)該改進(jìn)混合算法進(jìn)行比較,驗(yàn)證該算法的可行性。 (4)提出一種基于模糊綜合加權(quán)推理的Web文本模糊分類(lèi)改進(jìn)算法。 模糊推理方法是運(yùn)用知識(shí)規(guī)則進(jìn)行推理,使機(jī)器具有思維能力,自動(dòng)求解問(wèn)題,它的工作方式與人類(lèi)的認(rèn)知過(guò)程極為相似。通過(guò)模糊推理來(lái)對(duì)文本模糊分類(lèi),建立起了樣本對(duì)于類(lèi)別的不確定性的描述,使歸類(lèi)結(jié)果比精確分類(lèi)更有效地反映Web文本的真實(shí)信息。針對(duì)基于最大——最小合成法模糊推理歸類(lèi)這種方
9、法在模糊運(yùn)算的過(guò)程中只能保持主要信息,忽略很多次要因素,雖然能減少運(yùn)算工作量,但其分類(lèi)結(jié)果適應(yīng)性、可信度不很理想的情況,提出一種改進(jìn)模糊綜合加權(quán)評(píng)判算法。使用了本文給出的一種“綜合加權(quán)型,算子(x)(·,(+)),基于有界和——代數(shù)積進(jìn)行推理運(yùn)算,根據(jù)權(quán)重系數(shù)綜合考慮每個(gè)因素的影響建立的模糊分類(lèi)系統(tǒng)的模糊推理機(jī)制,能確保推理結(jié)果的準(zhǔn)確性及可信度。對(duì)該算法進(jìn)行了實(shí)驗(yàn),同時(shí)結(jié)合基于最大一最小合成模糊推理方法對(duì)該改進(jìn)算法進(jìn)行比較,驗(yàn)證該算法的
10、可行性。 (5)提出一種基于內(nèi)在認(rèn)知機(jī)理的帶反饋的質(zhì)心Web文本分類(lèi)改進(jìn)算法。 結(jié)合認(rèn)知科學(xué),針對(duì)只有訓(xùn)練與分類(lèi)兩階段的分類(lèi)方法,不具備不斷學(xué)習(xí)的能力和分類(lèi)能力在將來(lái)的分類(lèi)過(guò)程中是固定不變的情況,在文本訓(xùn)練及分類(lèi)階段的基礎(chǔ)上增加了自動(dòng)反饋階段,實(shí)現(xiàn)模擬人類(lèi)學(xué)習(xí)方式的漸增、遞進(jìn)式知識(shí)發(fā)現(xiàn)方式,實(shí)現(xiàn)分類(lèi)器自識(shí)調(diào)節(jié)和修正來(lái)提高文本分類(lèi)智能化程度和分類(lèi)有效性。并對(duì)該改進(jìn)算法進(jìn)行了實(shí)驗(yàn),與傳統(tǒng)的質(zhì)心文本分類(lèi)作比較,驗(yàn)證該算法的可行
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- Web文本分類(lèi)關(guān)鍵技術(shù)研究與應(yīng)用.pdf
- 中文Web文本分類(lèi)關(guān)鍵技術(shù)研究與實(shí)現(xiàn).pdf
- 關(guān)聯(lián)文本分類(lèi)關(guān)鍵技術(shù)研究.pdf
- 文本分類(lèi)中的關(guān)鍵技術(shù)研究.pdf
- Web文本分類(lèi)關(guān)鍵技術(shù)的研究與實(shí)現(xiàn).pdf
- 大規(guī)模Web文本快速分類(lèi)關(guān)鍵技術(shù)研究.pdf
- 中文Web文本分類(lèi)技術(shù)研究.pdf
- 多層文本分類(lèi)與增量學(xué)習(xí)關(guān)鍵技術(shù)研究.pdf
- 中文文本分類(lèi)關(guān)鍵技術(shù)研究與實(shí)現(xiàn).pdf
- 面向領(lǐng)域的文本分類(lèi)與挖掘關(guān)鍵技術(shù)研究.pdf
- 面向?qū)@墨I(xiàn)數(shù)據(jù)的文本分類(lèi)若干關(guān)鍵技術(shù)研究.pdf
- 多標(biāo)簽中文文本分類(lèi)中的關(guān)鍵技術(shù)研究.pdf
- 基于改進(jìn)KNN分類(lèi)算法的文本分類(lèi)關(guān)鍵技術(shù)研究與實(shí)現(xiàn).pdf
- Web中文文本分類(lèi)技術(shù)研究與實(shí)現(xiàn).pdf
- web文本分類(lèi)中特征向量?jī)?yōu)化技術(shù)研究.pdf
- 基于粗糙集的Web文本分類(lèi)技術(shù)研究.pdf
- 短文本分類(lèi)技術(shù)研究.pdf
- 文本分類(lèi)相關(guān)技術(shù)研究.pdf
- 文本分類(lèi)特征選取技術(shù)研究.pdf
- 維吾爾文文本分類(lèi)技術(shù)研究.pdf
評(píng)論
0/150
提交評(píng)論