版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、隨著生物醫(yī)學(xué)文獻(xiàn)數(shù)量的急劇增長(zhǎng),海量的生物醫(yī)學(xué)信息成為制約生物醫(yī)學(xué)研究者研究的重要因素。一方面,生物醫(yī)學(xué)研究人員很難迅速查找蘊(yùn)藏在這些浩如煙海的生物醫(yī)學(xué)文獻(xiàn)中的具有價(jià)值的信息,因此也幾乎不可能通過(guò)人工的方式及時(shí)更新知識(shí)。與此同時(shí),生物醫(yī)學(xué)領(lǐng)域具有十分豐富的在線和離線知識(shí)資源。生物醫(yī)學(xué)研究人員可以利用這些知識(shí)資源作為輔助,通過(guò)對(duì)已有知識(shí)資源進(jìn)行科學(xué)的表示并依此來(lái)學(xué)習(xí)新文獻(xiàn)中的知識(shí),從而來(lái)進(jìn)一步更新和完善這些生物醫(yī)學(xué)知識(shí)資源,進(jìn)而達(dá)到輔助生
2、物醫(yī)學(xué)研究人員研究工作的目的。構(gòu)建這些知識(shí)資源的過(guò)程往往需要耗費(fèi)大量的人力物力財(cái)力,同時(shí)也受到知識(shí)資源構(gòu)建人員學(xué)術(shù)背景等主觀因素的制約。于是研究人員迫切需要一種自動(dòng)的方法來(lái)解決文獻(xiàn)急劇增長(zhǎng)和無(wú)法及時(shí)更新知識(shí)這對(duì)矛盾。生物醫(yī)學(xué)命名實(shí)體標(biāo)準(zhǔn)化正由此應(yīng)運(yùn)而生。
生物醫(yī)學(xué)命名實(shí)體標(biāo)準(zhǔn)化是生物醫(yī)學(xué)文本挖掘研究中重要的基礎(chǔ)環(huán)節(jié),它不僅與生物醫(yī)學(xué)命名實(shí)體識(shí)別研究緊密聯(lián)系,而且對(duì)后續(xù)實(shí)體關(guān)系抽取以及假設(shè)發(fā)現(xiàn)具有十分重要的意義。眾所周知,基
3、因和蛋白質(zhì)是最重要的生物醫(yī)學(xué)命名實(shí)體,它們對(duì)于生物醫(yī)學(xué)研究人員的研究具有十分重要的價(jià)值。因此,生物醫(yī)學(xué)命名實(shí)體標(biāo)準(zhǔn)化研究的重點(diǎn)細(xì)化為基因提及標(biāo)準(zhǔn)化研究。基因提及標(biāo)準(zhǔn)化的主要任務(wù)是識(shí)別出生物醫(yī)學(xué)文獻(xiàn)中提及的基因和蛋白質(zhì)以及正確建立這些基因提及與標(biāo)準(zhǔn)生物醫(yī)學(xué)數(shù)據(jù)庫(kù)中的標(biāo)識(shí)符之間的映射關(guān)系。通過(guò)這種方式可以降低構(gòu)造相關(guān)知識(shí)資源的成本。因此,生物醫(yī)學(xué)命名實(shí)體標(biāo)準(zhǔn)化具有很高的應(yīng)用價(jià)值。
本文首先介紹了生物醫(yī)學(xué)文本挖掘領(lǐng)域中的基因提及
4、標(biāo)準(zhǔn)化研究的概況。其次把如何利用知識(shí)資源對(duì)基因提及進(jìn)行消歧作為研究范疇。從利用相關(guān)反饋知識(shí)對(duì)消歧問(wèn)題進(jìn)行初步嘗試入手,深入調(diào)研本領(lǐng)域相關(guān)文獻(xiàn),最終形成本文的核心方法。
本文基于擴(kuò)展語(yǔ)義輪廓消歧的標(biāo)準(zhǔn)化方法主要由四個(gè)部分組成:
第一部分是對(duì)原始的生物醫(yī)學(xué)摘要文本進(jìn)行預(yù)處理,利用現(xiàn)有的命名實(shí)體識(shí)別系統(tǒng)對(duì)處理后的摘要文本進(jìn)行識(shí)別。與此同時(shí),把BioCreative II組織者提供的字典與數(shù)據(jù)庫(kù)資源中的基因提及同義字
5、信息進(jìn)行合并,從而構(gòu)建字典。最后對(duì)生成的字典進(jìn)行規(guī)范化處理,使其盡量消除由名稱(chēng)拼寫(xiě)差別造成的誤差。
第二部分是構(gòu)造候選基因提及標(biāo)識(shí)符列表。這部分主要的功能是把識(shí)別出來(lái)的基因提及通過(guò)搜索匹配的方法與生物學(xué)數(shù)據(jù)庫(kù)中的標(biāo)識(shí)符進(jìn)行對(duì)應(yīng),其中具有歧義的基因提及由下一步消歧方法來(lái)確定一個(gè)唯一的數(shù)據(jù)庫(kù)標(biāo)識(shí)符。
第三部分采用基于信息檢索的擴(kuò)展語(yǔ)義信息來(lái)進(jìn)行消歧,并將這種信息轉(zhuǎn)化為特征向量。最后,采用基于wikipedia的后
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 生物醫(yī)學(xué)領(lǐng)域的命名實(shí)體識(shí)別和標(biāo)準(zhǔn)化.pdf
- 命名實(shí)體語(yǔ)義消歧方法的研究.pdf
- 基于圖方法的命名實(shí)體消歧研究.pdf
- 基于詞表示方法的生物醫(yī)學(xué)命名實(shí)體識(shí)別.pdf
- 生物醫(yī)學(xué)文獻(xiàn)中命名實(shí)體的識(shí)別.pdf
- 基于遞歸神經(jīng)網(wǎng)絡(luò)的生物醫(yī)學(xué)命名實(shí)體識(shí)別.pdf
- 基于中文維基百科的命名實(shí)體消歧方法研究.pdf
- 基于領(lǐng)域知識(shí)庫(kù)的命名實(shí)體識(shí)別與人名消歧.pdf
- 基于生物醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)的命名實(shí)體識(shí)別并行算法研究.pdf
- 生物醫(yī)學(xué)縮略語(yǔ)消歧.pdf
- 命名實(shí)體間語(yǔ)義關(guān)系抽取研究.pdf
- 基于統(tǒng)計(jì)的生物命名實(shí)體識(shí)別研究.pdf
- 基于詞匯語(yǔ)義信息的中文命名實(shí)體關(guān)系抽取研究.pdf
- 基于語(yǔ)義范疇擴(kuò)展的詞義消歧的研究.pdf
- 基于種子自擴(kuò)展的命名實(shí)體關(guān)系抽取方法的研究.pdf
- 基于鏈接開(kāi)放數(shù)據(jù)的命名實(shí)體語(yǔ)義相關(guān)度算法設(shè)計(jì).pdf
- 基于依存樹(shù)的中文命名實(shí)體語(yǔ)義關(guān)系抽取的研究.pdf
- 基于位置和語(yǔ)義特征的中文命名實(shí)體關(guān)系抽取研究.pdf
- 基于樹(shù)核函數(shù)的命名實(shí)體語(yǔ)義關(guān)系抽取方法的研究.pdf
- 基于Stacking框架的命名實(shí)體識(shí)別.pdf
評(píng)論
0/150
提交評(píng)論