面向微博的觀點摘要關(guān)鍵技術(shù)研究.pdf_第1頁
已閱讀1頁,還剩63頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、微博作為互聯(lián)網(wǎng)發(fā)展浪潮中的衍生物,短期內(nèi)迅速俘獲了大批用戶的心。每時每刻,大眾都可以對自己感興趣的話題發(fā)表評論?;谝陨锨闆r,包括商家、政府在內(nèi)的個人及團(tuán)體都期望能夠從這些海量評論中及時感知輿論趨勢。正是如此,面向微博文本進(jìn)行觀點摘要應(yīng)用而生。而情感分析和文本摘要作為觀點摘要問題中的兩個主要課題已逐漸成為業(yè)內(nèi)的研究熱點。其中,情感分析能夠識別、抽取文本所表達(dá)的情感傾向,幫助了解喜好偏向;文本摘要則可對信息進(jìn)行壓縮、概括,便于知曉概況。因

2、此,針對微博的觀點摘要問題,研究情感分析及文本摘要的關(guān)鍵技術(shù)具有重要意義。
  本文圍繞微博中多個話題的評論,對觀點摘要問題中,情感分析和文本摘要兩個子課題所涉及的關(guān)鍵技術(shù)進(jìn)行了研究,主要成果如下:
  (1)針對微博的情感分析問題,提出了基于三元詞組模式的微博情感分析方法。首先將當(dāng)前已有的情感詞典歸納整理,并更新部分資源,得到一個更全、針對性更強(qiáng)的詞典。在充分研究微博文本特點后發(fā)現(xiàn),微博評論的作者經(jīng)常會顯式地使用詞匯表達(dá)自

3、己的觀點,且三個詞匯之間的組合搭配能夠左右整句的情感,因此本文利用三元詞組間的搭配模式進(jìn)行情感分析,用以自動標(biāo)注語料。最后,對自動標(biāo)注好的語料進(jìn)行測試,并分析和研究了多個影響結(jié)果的參數(shù)。實驗結(jié)果表明,在不進(jìn)行人為標(biāo)注的情況下,自動標(biāo)注的訓(xùn)練語料可以達(dá)到最高72.39%的測試正確率。
  (2)針對微博的文本摘要問題,提出了基于熵融合的微博文本摘要方法。首先利用主題模型LDA(Latent Dirichlet Allocation)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論