![](https://static.zsdocx.com/FlexPaper/FileRoot/2019-10/5/22/868225b8-2174-479b-b49b-1d4e8f4cbb7f/868225b8-2174-479b-b49b-1d4e8f4cbb7fpic.jpg)
![自然語言的應用研究_第1頁](https://static.zsdocx.com/FlexPaper/FileRoot/2019-10/5/22/868225b8-2174-479b-b49b-1d4e8f4cbb7f/868225b8-2174-479b-b49b-1d4e8f4cbb7f1.gif)
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、自然語言的應用研究自然語言的應用研究【正文】(朱麗(上??哲娬螌W院信息管理系))摘要作為情報語言學研究對象之一的自然語言,在情報檢索中的應用正日趨廣泛。本文將其與規(guī)范語言進行了比較,重點討論了其應用中的三個問題,自然語言標引、標引檢索用詞表及檢索語言整體化趨勢,并就其未來發(fā)展作了闡述。主題詞自然語言規(guī)范語言情報檢索***1.自然語言與規(guī)范語言自然語言(natruallanguage)是相對于規(guī)范語言(Controlledlanguag
2、e)而言的,其本質特征是不受控制[1]。從情報檢索的發(fā)展歷程來看,作為語言保障的規(guī)范語言是對自然語言實施控制而出現(xiàn)的;而情報檢索的進一步發(fā)展必使得曾被否定的自然語言重新得以肯定[2]。1.1規(guī)范語言的產生規(guī)范語言是適應情報檢索需要而創(chuàng)制的一種人工語言,它在手工檢索條件下產生,并得到了充分發(fā)展及應用。如歷史最久遠的分類語言,采用比較抽象的類號來表達概念,組織檢索系統(tǒng)。它具有良好的系統(tǒng)性,適于學科或專業(yè)出發(fā)的族性檢索。同時,隨著學科發(fā)展及用
3、戶需求的變化,分類語言也由等級體系型日益向分面組配方向發(fā)展。而規(guī)范語言的另一重要分支——主題語言,則以自然語言為基礎,經過人為的形式控制(詞量、詞形、詞義及詞間關系等),用來直接表達主題概念。50年代由于計算機檢索的迅速發(fā)展,主題語言也在經歷了元詞語言的短暫應用后進入敘詞語言的大普及階段。作為吸取以往所有規(guī)范語言優(yōu)點的敘詞語言,適應了標引、檢索的多種要求,是在機檢條件下效率較好的一種規(guī)范語言。60年代,在國外被稱為“敘詞表”時代,其應用
4、達到了頂峰。無論是哪種規(guī)范語言,為了達到簡明專指地進行標引及全準便捷地實現(xiàn)檢索的目的,都對人們日常使用的自然語言進行了種種轉換及限制處理。如分類語言是建立在代表主題概念的一系列類目基礎上的號碼體系,而主題語言則是有選擇并加以規(guī)范化的自然語言的一個子集。這在克服了自然語言的兩大不足[4]:概念與語詞非一一對應,及概念關系的隱含性的同時,也不可避免地導致了規(guī)范語言自身的局限,即表達概念的受限,詞匯轉換的失真及標引、檢索前處理量大且難以達到統(tǒng)
5、一等。七、八十年代由于計算機軟件硬件條件的支持,國外在聯(lián)機檢索的基礎上進一步向網絡化發(fā)展。90年代初以來各國的信息高速公路建設更是方興未艾,如火如荼,國內機檢水平也在迅速提高,并與全球的大趨勢相合拍。在這種形勢下,作為情報檢索語言保障的規(guī)范語言因其固有的人工性、受控性,越來越難以滿足大量、迅捷、自由、多樣的檢索要求,其得不償失的內在不足更趨明顯化。1.2自然語言的優(yōu)勢及當前信息條件下對其的需求自然語言作為日常使用的語言,無疑最符合人們進
6、行情報檢索的習慣,隨著機檢的高度發(fā)展,應用條件的日益完善,自然語言有可能揚長避短,重新發(fā)揮其固有的優(yōu)勢。①直接采用文獻作者使用的自然語言,標引工作就可以擺脫規(guī)范語言的了解掌握,以及繁復的分析轉換過程。這大大降低了標引的腦力、體力負擔,加快了標引速度,又減少了表達概念上的失真和不一致。②直接以日常使用的自然語言進行情報檢索,符合檢索者的習慣,簡便易行,對于日益增大的普遍檢索用戶群而言更是如此。檢準率的因素[8]。同時,由于計算機對自然語言
7、的理解力以及漢語語詞切分、識別尚存在相當距離,純自然語言自動標引與檢索未獲真正意義上的推廣及使用。這種狀況使得自然語言也不得不研究吸取規(guī)范語言的某些控制手段或指導思想,以期在保持自然語言的基本特征及固有優(yōu)點下,最大限度地提高標引、檢索效率。由此產生了各種自然語言標引、檢索詞表(典)。①后控制詞表以往的規(guī)范文語言詞表是在文獻或情報輸入時就對索引詞先行加以控制(受控標引),因此又稱為前控詞表。由于它的控制帶有一定的粗泛性、滯后性,有時甚至失
8、控,因而人們開始嘗試使用自然語言(自由詞)進行檢索,但這又造成了與受控語言的脫節(jié)。于是,在標引時使用自然語言,在檢索時實施一些不嚴格的控制,這就成了后控制詞表的最初思路。1959年美國匹茲堡大學法律中心采用一種同義詞表來輔助其法律全文數(shù)據(jù)庫的檢索,它只是簡單地將相同含義的詞編輯在一起,作為一種自動擴檢工具而獲得了相當好的效果。國內在這方面的研究始于80年代初,近年來則正逐漸形成理論和實踐熱點,出現(xiàn)了一批實驗或實用性后控制詞表系統(tǒng)。如基于
9、用戶提問和用戶建議的自學后控制系統(tǒng),基于字面相似原理的后控詞表輔助編制系統(tǒng),基于詞對相似和詞對共現(xiàn)原理的后控制詞表系統(tǒng)以及基于分面分析的機輔后控制詞表系統(tǒng)等[9]。后控制詞表通過羅列自然語詞來提供一種轉換或擴檢系統(tǒng),其控制效果由詞表對自然語言詞間關系的顯示形式、種類及質量所決定。它作為利用規(guī)范語言的原理和方法編制的自然語言檢索用控制詞表較好地減輕了標引和檢索負擔,又同時保留了自然語言的優(yōu)點,其應用前景十分廣闊。②入口詞表入口詞表的編制是
10、為解決標引和檢索的入口詞問題,最初的出發(fā)點是針對規(guī)范語言詞表而言的。它解決了詞表詞量有限的問題,并提供了規(guī)范語言與自然語言的接口。隨著情報檢索的發(fā)展,入口詞表的應用范圍也有所拓展,可以認為標引詞、檢索詞表達的變化以及查找途徑的增加都可稱為入口思想的反映。常見的入口詞表有與規(guī)范語言詞表同一的入口詞表、專門編制的入口詞表等,截詞檢索從其功能而言也是一種無形的入口詞表。另外,詞表的輪排索引提供了從詞素出發(fā)的多個入口,也是入口詞表的一種重要形式
11、。③切分詞典這是針對漢語分詞的困難,而構造的一種機內詞典,在自動標引時作為切分抽詞的輔助工具。其中又可細分為主題詞詞典、關鍵詞詞典、部件詞詞典、非用字后輟表等。上述切分詞典均在自然語言自動標引中得到了應用,但仍存在一些需完善之處。如保證詞典抽詞的準確性、便檢性,切分規(guī)則的完備性以及提高處理隱含概念、縮略語等特殊語言現(xiàn)象的能力。2.3自然語言與規(guī)范語言的結合使用——整體化趨勢自然語言與規(guī)范語言的構成特點決定了它們在檢索效率方面具有互補性,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 韻律結構信息在自然語言處理中的應用研究.pdf
- 基于詞聯(lián)接的自然語言處理技術及其應用研究.pdf
- 自然語言句法樹結構轉換及應用研究.pdf
- 自然語言理解的研究.pdf
- 基于自然語言處理的空間信息檢索優(yōu)化應用研究.pdf
- 自然語言編程研究.pdf
- 自然語言問答系統(tǒng)的研究及其應用.pdf
- 基于自然語言理解的自動應答技術及應用研究.pdf
- 神經語言模型在自然語言處理中的應用.pdf
- 圖模型在自然語言處理中的研究與應用
- 信息-知識-智能轉換理論在自然語言處理中的應用研究.pdf
- 自然語言處理分詞文檔
- 自然語言處理分詞文檔
- 最新自然語言處理naturallanguageprocessingnlp
- 圖模型在自然語言處理中的研究與應用.pdf
- 半監(jiān)督算法在自然語言處理中應用的研究.pdf
- 淺議自然語言信息處理的智能化應用
- 訂票系統(tǒng)的自然語言接口.pdf
- 面向領域自然語言處理方法的研究.pdf
- 基于統(tǒng)計的自然語言處理.pdf
評論
0/150
提交評論