![](https://static.zsdocx.com/FlexPaper/FileRoot/2019-3/14/18/8f83c1e5-6b8e-4d09-a937-7f571c954c24/8f83c1e5-6b8e-4d09-a937-7f571c954c24pic.jpg)
![基于語(yǔ)義標(biāo)注的元數(shù)據(jù)自動(dòng)構(gòu)建及其相關(guān)技術(shù)研究.pdf_第1頁(yè)](https://static.zsdocx.com/FlexPaper/FileRoot/2019-3/14/18/8f83c1e5-6b8e-4d09-a937-7f571c954c24/8f83c1e5-6b8e-4d09-a937-7f571c954c241.gif)
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、為了解決網(wǎng)絡(luò)信息“爆炸”時(shí)代出現(xiàn)的諸多問(wèn)題,元數(shù)據(jù)作為一種重要的應(yīng)對(duì)方法和措施,已廣泛應(yīng)用于信息檢索、信息集成及信息共享等服務(wù)中。毫無(wú)疑問(wèn),元數(shù)據(jù)自身質(zhì)量的好壞決定了元數(shù)據(jù)應(yīng)用服務(wù)的最終成敗。為了提高元數(shù)據(jù)的服務(wù)質(zhì)量,學(xué)術(shù)界和產(chǎn)業(yè)界主要從以下幾個(gè)方面進(jìn)行了大量的研究和探索。一是元數(shù)據(jù)質(zhì)量相關(guān)標(biāo)準(zhǔn)的制定,建立統(tǒng)一的元數(shù)據(jù)標(biāo)準(zhǔn)可以有效地保證元數(shù)據(jù)的一致性和完整性,并實(shí)現(xiàn)規(guī)范性的交互操作,這一點(diǎn)已經(jīng)在研究工作者中達(dá)成廣泛的共識(shí);二是元數(shù)據(jù)構(gòu)建
2、及管理方法的改進(jìn)與完善,元數(shù)據(jù)構(gòu)建及管理方法的改進(jìn)和完善是提高元數(shù)據(jù)質(zhì)量的另一種途徑,目前,在元數(shù)據(jù)的模式發(fā)現(xiàn)、模式轉(zhuǎn)換、控制策略、管理機(jī)制等諸多方面都已經(jīng)開(kāi)展了大量的研究工作;三是元數(shù)據(jù)質(zhì)量評(píng)估的研究,學(xué)術(shù)界對(duì)此問(wèn)題的討論集中在評(píng)估指標(biāo)體系、評(píng)估方法及評(píng)估用例等幾方面。從目前的文獻(xiàn)和資料中我們發(fā)現(xiàn),現(xiàn)有的研究工作更多的從元數(shù)據(jù)創(chuàng)建者手動(dòng)方式的角度出發(fā),考慮了創(chuàng)建工具的有效性和便利性,然而,從元數(shù)據(jù)的創(chuàng)建者和使用者兩方面考慮,這必將會(huì)引
3、起諸如以下問(wèn)題:從創(chuàng)建者來(lái)看,面對(duì)大量形式多樣的數(shù)據(jù)集,元數(shù)據(jù)創(chuàng)建者需要花費(fèi)一定的精力去了解數(shù)據(jù)集內(nèi)容,直到對(duì)數(shù)據(jù)集的內(nèi)容具有深入透徹的理解,這必將是一項(xiàng)繁瑣沉重的工作,此外,不同創(chuàng)建者理解上的差異,也會(huì)導(dǎo)致元數(shù)據(jù)理解上的歧義;從使用者來(lái)看,用戶也需要對(duì)預(yù)先定義好的元數(shù)據(jù)具備正確的認(rèn)識(shí),否則在創(chuàng)建者和使用者之間就會(huì)產(chǎn)生認(rèn)知上的“鴻溝”,用戶自然就無(wú)法有效的查詢獲取需求信息。
因此,為了解決以上問(wèn)題,構(gòu)建高質(zhì)量的元數(shù)據(jù)服務(wù),
4、本文首先提出了一種基于語(yǔ)義標(biāo)注構(gòu)建元數(shù)據(jù)的方法,利用數(shù)據(jù)集中已有的語(yǔ)義標(biāo)注信息自動(dòng)構(gòu)建生成元數(shù)據(jù)。該方法在考慮元數(shù)據(jù)構(gòu)建效率的同時(shí),充分借鑒了知識(shí)共享的理念,探索了利用語(yǔ)義標(biāo)注信息傳遞出來(lái)的多視角信息消除主觀認(rèn)知上“鴻溝”的可行性,并對(duì)不同結(jié)構(gòu)視圖下的元數(shù)據(jù)識(shí)別策略進(jìn)行了針對(duì)性研究。在此基礎(chǔ)上,本文進(jìn)一步研究了元數(shù)據(jù)模式語(yǔ)義異構(gòu)的問(wèn)題,提出了一種支持元數(shù)據(jù)模式語(yǔ)義集成的模式匹配方法。為了驗(yàn)證方法的適用性、評(píng)估元數(shù)據(jù)的質(zhì)量,本文又提出了一
5、種可以有效提高查準(zhǔn)率,抑制查全率低引起目標(biāo)缺失的元數(shù)據(jù)查詢方法??紤]到檔案信息資源自身特有的使用價(jià)值及其在基礎(chǔ)信息資源中重要的地位[1],本文在實(shí)驗(yàn)設(shè)計(jì)的出發(fā)點(diǎn)以及測(cè)試數(shù)據(jù)集的選擇上,都將目標(biāo)定位在了這個(gè)領(lǐng)域之中。具體來(lái)講,本文各項(xiàng)研究成果主要包含以下幾個(gè)方面:
(1)在分析基于模板和基于機(jī)器學(xué)習(xí)兩類主要元數(shù)據(jù)抽取方法的基礎(chǔ)上,提出了一個(gè)自動(dòng)構(gòu)建元數(shù)據(jù)的方法(SAMC)。該方法能克服上述兩類方法的缺點(diǎn)與不足,不但能充分地利
6、用現(xiàn)有語(yǔ)義標(biāo)注信息對(duì)元數(shù)據(jù)進(jìn)行有效的識(shí)別和定位,而且還有機(jī)地將統(tǒng)計(jì)學(xué)理論、信息的結(jié)構(gòu)化特征、視覺(jué)布局特征等融合在一起,為SAMC的性能提供了有力的保證,因而,該方法構(gòu)建出的元數(shù)據(jù)具有更高的精確度與更強(qiáng)的信息表達(dá)能力,能夠很好地滿足對(duì)構(gòu)建高質(zhì)量元數(shù)據(jù)的要求。
(2)提出了不同布局模式下識(shí)別元數(shù)據(jù)的算法。為了提高本方法中生成元數(shù)據(jù)的可行性,本文考慮了語(yǔ)義標(biāo)注信息結(jié)構(gòu)視圖差異的情況,重點(diǎn)研究了在總分、遞進(jìn)、綜合分布等序列模式下,
7、語(yǔ)義標(biāo)注信息所表現(xiàn)出來(lái)的差異特征,針對(duì)性的設(shè)計(jì)了相應(yīng)的元數(shù)據(jù)識(shí)別算法。算法中有效地利用了樹(shù)型數(shù)據(jù)結(jié)構(gòu)的層次、線性數(shù)據(jù)結(jié)構(gòu)的次序以及信息分布的頻繁程度等特征,從而使元數(shù)據(jù)識(shí)別的效果以及性能等方面都有了很好的表現(xiàn)。
(3)提出了能有效支持元數(shù)據(jù)屬性級(jí)語(yǔ)義集成的模式匹配方法(PISMatching)。與相關(guān)研究相比,本研究面臨的是一個(gè)以豐富元數(shù)據(jù)模式語(yǔ)義信息為目的、以多數(shù)據(jù)源元數(shù)據(jù)模式合并為任務(wù)的新問(wèn)題。本文嘗試了將本體、敘詞表
8、和概念相似度計(jì)算結(jié)合使用,實(shí)現(xiàn)了整合各自優(yōu)點(diǎn)的目的,在實(shí)現(xiàn)難易、復(fù)雜度、語(yǔ)義強(qiáng)度等方面都擁有更好的性能。本體的引入為匹配方法準(zhǔn)確性的提高提供了強(qiáng)有力的領(lǐng)域上下文支持,基于關(guān)聯(lián)信息聯(lián)想和概率統(tǒng)計(jì)的概念相似度方法也為模式匹配提供了一個(gè)新的度量標(biāo)準(zhǔn),該度量標(biāo)準(zhǔn)能夠發(fā)現(xiàn)積極相關(guān)的屬性以得到潛在的屬性組,也能將同義關(guān)系的屬性組保留下來(lái)。在PISMatching具體設(shè)計(jì)的表現(xiàn)力上,本文更注重匹配程度的高低排序而不是差距值的計(jì)算,這樣對(duì)實(shí)際應(yīng)用更具意
9、義;更注重對(duì)匹配可利用信息的捕獲,而減少對(duì)特定匹配模式的依賴,這樣使研究成果具有更大的靈活性、擴(kuò)展性和更廣泛的利用價(jià)值。(4)提出了利用域上下文信息度量相關(guān)性的元數(shù)據(jù)查詢方法(MFCQuery)。與傳統(tǒng)元數(shù)據(jù)查詢方式相比,為了能在查準(zhǔn)率、查全率上有進(jìn)一步地提高,MFCOuery主要從兩個(gè)方面進(jìn)行了擴(kuò)展:一是利用向量空間模型(Vector Space Model)在用戶查詢信息和元數(shù)據(jù)域上下文信息之間建立相關(guān)性計(jì)算矩陣,利用域上下文信息與
10、用戶查詢信息相關(guān)性的高低來(lái)判斷用戶的真實(shí)查詢意圖,用以提高檢索結(jié)果的查全率;另一個(gè)方面考慮到部分查詢者可能由于缺少足夠的背景知識(shí),而無(wú)法提供必要的元數(shù)據(jù)域查詢,我們將為其匹配最相關(guān)的目標(biāo)域限制,以提高檢索結(jié)果的查準(zhǔn)率。該方法在保證傳統(tǒng)查詢方式下高精度特點(diǎn)的同時(shí),能夠使檢索結(jié)果的查全率得到進(jìn)一步地提升。
(5)細(xì)化了元數(shù)據(jù)的評(píng)估標(biāo)準(zhǔn)。從整個(gè)論文研究的出發(fā)點(diǎn)講,論文全部研究工作的主要目的是為了有效地提高元數(shù)據(jù)的質(zhì)量,使其能在具
11、體應(yīng)用領(lǐng)域發(fā)揮更大的作用。為此,本文選擇了檔案信息資源作為實(shí)驗(yàn)中的目標(biāo)應(yīng)用領(lǐng)域,而對(duì)于元數(shù)據(jù)最終質(zhì)量的評(píng)估,作者考慮到并不能單純從信息技術(shù)經(jīng)典的評(píng)估指標(biāo)查全率和查準(zhǔn)率來(lái)體現(xiàn),所以本文嘗試了細(xì)化各項(xiàng)評(píng)估指標(biāo),對(duì)特征不同的評(píng)估對(duì)象,采用了分化的評(píng)估比較的辦法,這樣可以在更細(xì)致的層面上反映出不同方法在元數(shù)據(jù)質(zhì)量上的影響。
總之,本論文通過(guò)規(guī)則、統(tǒng)計(jì)、概率等方法分別從上述各個(gè)方面對(duì)元數(shù)據(jù)相關(guān)技術(shù)進(jìn)行了深入研究。解決了元數(shù)據(jù)構(gòu)建過(guò)程
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 海洋文獻(xiàn)元數(shù)據(jù)的語(yǔ)義標(biāo)注技術(shù)研究.pdf
- 漢語(yǔ)框架語(yǔ)義角色的自動(dòng)標(biāo)注技術(shù)研究.pdf
- 圖像的自動(dòng)語(yǔ)義標(biāo)注技術(shù)研究與實(shí)現(xiàn).pdf
- 面向文本的自動(dòng)語(yǔ)義標(biāo)注技術(shù)研究與實(shí)現(xiàn).pdf
- Deep Web數(shù)據(jù)抽取和語(yǔ)義標(biāo)注技術(shù)研究.pdf
- 運(yùn)動(dòng)捕獲數(shù)據(jù)的語(yǔ)義標(biāo)注關(guān)鍵技術(shù)研究.pdf
- 面向Deep Web的數(shù)據(jù)抽取與語(yǔ)義標(biāo)注技術(shù)研究.pdf
- 基于本體的網(wǎng)格元數(shù)據(jù)模型及其相關(guān)技術(shù)研究.pdf
- 基于本體的自動(dòng)語(yǔ)義標(biāo)注方法研究.pdf
- 基于框架語(yǔ)義標(biāo)注的Web信息抽取技術(shù)研究.pdf
- 基于依存樹(shù)的中文語(yǔ)義角色標(biāo)注技術(shù)研究.pdf
- 圖像自動(dòng)語(yǔ)義標(biāo)注研究.pdf
- 自動(dòng)語(yǔ)義標(biāo)注方法研究.pdf
- 基于語(yǔ)義標(biāo)注的知識(shí)抽取相關(guān)技術(shù)的國(guó)外進(jìn)展研究
- Deep Web數(shù)據(jù)源發(fā)現(xiàn)和語(yǔ)義標(biāo)注技術(shù)研究.pdf
- 動(dòng)態(tài)Web頁(yè)語(yǔ)義標(biāo)注技術(shù)研究.pdf
- 基于本體的圖像語(yǔ)義的自動(dòng)標(biāo)注研究.pdf
- 基于內(nèi)容的圖像數(shù)據(jù)庫(kù)語(yǔ)義分類相關(guān)技術(shù)研究.pdf
- 基于區(qū)域的圖像語(yǔ)義自動(dòng)標(biāo)注方法研究.pdf
- 基于區(qū)域的圖像自動(dòng)語(yǔ)義標(biāo)注算法研究.pdf
評(píng)論
0/150
提交評(píng)論