Web實體事件重復檢測問題研究.pdf_第1頁
已閱讀1頁,還剩58頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、隨著網(wǎng)絡技術的日新月異,Web上的信息量也在飛速增長。Web已經(jīng)成為一個巨大的數(shù)據(jù)源,擁有著海量的數(shù)據(jù)。這些數(shù)據(jù)中蘊含著大量有價值的實體事件,對人們的工作和社會的生產(chǎn)具有舉足輕重的作用。對Web上的實體事件進行充分的挖掘和分析,能夠獲取豐富的知識,在市場情報分析、輿情分析、電子商務、商業(yè)智能等領域具有十分重要的意義。但是Web是一個自由和開放的空間,Web實體事件來自不同的數(shù)據(jù)源,Web數(shù)據(jù)源具有自治性強的特點,發(fā)布信息相對隨意,再加上

2、自然語言也具有自由靈活的特點,同一實體事件采用不同的表述方式是一種極其常見的現(xiàn)象。這給實體事件的發(fā)現(xiàn)分析工作帶來了極大的困難,也給搜索信息的用戶和決策者帶來了很大的困擾。
  為了讓用戶獲得簡潔、準確、無重復的實體事件信息,就需要對來自不同數(shù)據(jù)源的實體事件表象進行重復檢測,這也是Web實體事件發(fā)現(xiàn)研究領域的重要子任務。要實現(xiàn)以上目標,就必須解決以下兩個關鍵問題:(1)實體事件表象的重復檢測。對來自不同數(shù)據(jù)源的實體事件表象進行重復檢

3、測,識別同一實體事件的多種表象,即將來自不同數(shù)據(jù)源的表意相同、表達方式不同的實體事件表象識別出來。(2)實體事件的重復檢測。實體事件是由重復的實體事件表象組成的集合表示的,經(jīng)過實體事件表象的重復檢測之后,實體事件之間仍然可能存在重復,需要進一步識別實體事件之間的重復現(xiàn)象。
  本文對不同的實體事件表象、實體事件之間的關系進行了研究,以Web實體事件重復檢測為目標,針對以上兩個待解決的關鍵問題展開研究,探索了實體事件表象的重復檢測和

4、實體事件的重復檢測兩方面的問題,主要工作與研究內(nèi)容如下:
  (1)針對實體事件表象的重復問題,根據(jù)商業(yè)領域中,同一時間、同一地點,一個特定的主體只能參加一個活動這一個規(guī)律,本文提出了“基于動態(tài)權重的線性組合方法”。將實體事件表象對的時間、地點、主體三個主要屬性,以及其他輔助屬性進行相似度計算,并利用屬性相似度計算出動態(tài)權重,然后利用各個屬性的相似度得分和動態(tài)權重求出實體事件表象對的相似度得分。最后將實體事件表象對的相似度得分與特

5、定的閾值進行比較,對實體事件表象對是否重復做出判斷。實驗結(jié)果表明,該方法相對于其他方法能夠獲得較高的F-measure值,有效的解決了實體事件表象的重復問題。
  (2)實體事件由重復的實體事件表象組成的集合表示,不同的實體事件之間也可能存在重復。因此,在基于動態(tài)權重的線性組合方法的基礎之上,本文進一步提出了兩種實體事件重復檢測的方法:基于實體事件屬性的重復檢測方法和基于實體事件關系的重復檢測方法,用以解決不同實體事件之間的重復問

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論