![](https://static.zsdocx.com/FlexPaper/FileRoot/2019-6/23/8/d8b962b0-7597-42bb-876b-0e6c754a4021/d8b962b0-7597-42bb-876b-0e6c754a4021pic.jpg)
![【碩士論文】大規(guī)模平衡語料的收集分析及文本分類方法研究_第1頁](https://static.zsdocx.com/FlexPaper/FileRoot/2019-6/23/8/d8b962b0-7597-42bb-876b-0e6c754a4021/d8b962b0-7597-42bb-876b-0e6c754a40211.gif)
版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、<p> 分類號 密級 </p><p> UDC 編號 </p><p><b> 中國科學院研究生院</b>&l
2、t;/p><p><b> 碩士學位論文</b></p><p> 大規(guī)模平衡語料的收集分析及文本分類方法研究</p><p><b> 陳克利</b></p><p> 指導教師 宗成慶 研究員 博士 中科院自動化所 </p><p> 申請學位級別 工
3、程碩士 學科專業(yè)名稱 模式識別與智能系統(tǒng) </p><p> 論文提交日期 2004年6月 論文答辯日期 2004年6月 </p><p> 培養(yǎng)單位 中國科學院自動化研究所 </p><p> 學位授予單位 中國科學院研究生院 </p><
4、p> 答辯委員會主席 </p><p> Dissertation Submitted to</p><p> Institute of Automation, Chinese Academy of Sciences</p><p> in partial fulfillment of the requirements<
5、;/p><p> for the degree of</p><p> Master of Engineering</p><p><b> by</b></p><p><b> Keli Chen</b></p><p> (Pattern Recognition
6、and Intelligence System)</p><p> Dissertation Supervisor: Professor Chengqing Zong</p><p><b> 摘 要</b></p><p> 語料庫和詞典是進行自然語言處理研究的重要資源。語言學的研究必須以語言事實作為依據(jù),語言現(xiàn)象的復雜性決定了要全面的
7、了解其特點必須有大規(guī)模語料庫的支持,否則只能是無源之水,無本之木。尤其是隨著統(tǒng)計模型在自然語言處理領域的應用,大規(guī)模語料庫的作用更加突出,無論對于語言現(xiàn)象本身的研究,還是對于信息檢索、機器翻譯、文本分類、自動分詞等應用系統(tǒng)的研究和開發(fā),都具有非常重要的意義。同樣,詞典開發(fā)不僅是自然語言處理研究的基礎性工作,也是字典編纂、語言教學等工作的重要環(huán)節(jié)。因此,本論文從事的大規(guī)模平衡語料的收集和分析工作,以及在該工作基礎上開展的文本分類技術研究,
8、具有重要的理論意義和實用價值。</p><p> 本文首先在歐共體項目(LC-STAR)的資助下,開展了大規(guī)模漢語平衡語料的收集與分析工作,其主要目的是建立一個反映現(xiàn)代漢語語言特點的、適用于漢語語言分析、語音識別和語音合成的漢語標注語料庫,并以此為基礎建立相應的信息詞典。該工作主要包括:(1)在對大規(guī)模漢語平衡語料的收集方法進行調(diào)研和分析的基礎上,收集并標注了規(guī)模達3087萬字的漢語平衡語料;(2)以收集的語料
9、為基礎,建立了一個大規(guī)模(10多萬詞)的現(xiàn)代漢語信息詞典,詞條標注信息包括詞性、注音、詞頻和專用詞的領域信息等。</p><p> 以上述工作為基礎,我們對文本分類方法進行了深入的研究,主要創(chuàng)新包括:</p><p> 在特征權重計算方面,通過對常見特征權重算法的分析和比較,提出了在TF*IDF算法中用TF的n次方代替TF,并引入DBV變量的處理方法,使得該算法的F1-Measure測
10、度分別提高了4~5%。</p><p> 類似于上面的處理方法,在TF*IWF算法中用TF的n次方代替TF,并引入DBV變量,使得該算法的F1-Measure測度分別提高了12.28%。</p><p> 在特征向量抽取方面,在Rocchio分類器上對常見的特征向量抽取方法進行了全面對比,然后提出了將TF*IDF算法用于特征抽取的處理方法,并通過實驗證明,該方法在不同數(shù)目關鍵詞下的分類
11、效果均優(yōu)于其它常見的特征向量抽取算法。</p><p> 關鍵詞:平衡語料,語料庫,文本分類,特征抽取</p><p><b> Abstract</b></p><p> Corpus and lexicon are important linguistic resource for Natural Language Processin
12、g. Linguistic research should be based on linguistic facts, and large-scale corpus is necessary for probing into linguistic research because of its complexity. Especially, along with wide application of statistical model
13、 in Natural Language Processing, large-scale corpus is playing a more important role. Large-scale copus is important to not only research of linguistic phenomena,but also system for Information Ret</p><p>
14、Our work supported by European Union’s project of LC-STAR, which includes collection and analysis of a large-scale balance-corpus, aims to build a Chinese tagged corpus and an information lexicon for Speech Recognition a
15、nd Speech Systhesis. The main work can be conluded as: (1) After investigating and analyzing the strategies for large-scale Chinese balance-corpus, we have collected and tagged a Chinese corpus consisting of 30.87M Chine
16、se characters; (2) Based on the collected corpus, we have cr</p><p> We have done some research work on Text Classification based on all the above. Our inovation in Text Classification can be concluded as f
17、ollows: </p><p> About feature weighting, we have analyzed the advantages and disadvantages of common feature weighting algorithms, and introduced two improvements into TF*IDF which is among common feature
18、weighting alogrithms. The two improvements are replacing TF with its nth root and introducing DBV into the expression. F1-M of classifier has been improved by 4~5%, so the effectiveness has been proved. </p><p
19、> Similarly, we have introduced the two improvements into TF*IWF feature weighting algorithm, resulting in 12.28% improvement of F1-M.</p><p> About feature extraction, we have compared several common f
20、eature extraction algorithms, and presented to introduce TF*IDF algorithm for feature extraction. Our comsequent expriments have proved this algorithm more effective than other ones.</p><p> Keywords: Balan
21、ce Corpus, Corpora, Text Categorization, Feature Extraction</p><p><b> 目 錄</b></p><p><b> 摘 要I</b></p><p> AbstractIII</p><p><b> 第一
22、章緒 言1</b></p><p> 第二章大規(guī)模平衡語料的收集分析3</p><p> 2.1研究背景3</p><p> 2.2國內(nèi)外語料庫概況[馮志偉,2000]3</p><p> 2.2.1國內(nèi)語料庫概況3</p><p> 2.2.2國內(nèi)語料庫概況4</p
23、><p> 2.3大規(guī)模平衡語料的收集分析5</p><p> 2.3.1通用語料的收集和通用詞匯的抽取5</p><p> 2.3.2專有名詞的收集11</p><p> 2.3.3專用詞匯的收集14</p><p> 2.3.4注音16</p><p> 2.3.
24、5詞典形式16</p><p> 2.3.6大規(guī)模平衡語料的分析[陳克利,2003]18</p><p> 第三章基于大規(guī)模真實語料的文本分類方法22</p><p> 3.1已有的文本分類方法簡介22</p><p> 3.1.1純貝葉斯方法23</p><p> 3.1.2Rocch
25、io 算法24</p><p> 3.1.3k近鄰算法25</p><p> 3.1.4支持向量機算法(SVM)25</p><p> 3.1.5決策樹算法27</p><p> 3.1.6其他分類算法27</p><p> 3.2特征向量的權重算法28</p><p
26、> 3.2.1常用的特征權重算法29</p><p> 3.2.2特征權重算法的改進32</p><p> 3.3特征向量的抽取35</p><p> 3.4評價函數(shù)38</p><p> 3.4.1微平均和宏平均38</p><p> 3.4.2F-Measure39<
27、/p><p> 3.4.3Break-even point [Aas, 1999].39</p><p> 3.4.411-point average precision [Taghva, 2004]39</p><p> 3.5閥值函數(shù)41</p><p><b> 3.6實驗41</b></
28、p><p> 3.6.1實驗:TF*IWF算法和改進后的TF*IWF*DBV算法的比較41</p><p> 3.6.2實驗: DBV和DBV2的比較46</p><p> 3.6.3實驗: TF*IDF算法和TF*IDF*DBV算法的對比47</p><p> 3.6.4實驗: 不同特征選取方法的對比51</p&g
29、t;<p> 第四章結束語54</p><p><b> 參考文獻56</b></p><p><b> 第一章緒 言</b></p><p> 語料庫和詞典是進行自然語言處理研究的重要資源。語言學的研究必須以語言事實作為依據(jù),語言現(xiàn)象的復雜性決定了要全面的了解其特點必須有大規(guī)模語料庫的支持,
30、否則只能是無源之水、無本之木。尤其是隨著統(tǒng)計模型在自然語言處理領域的應用,大規(guī)模語料庫的作用更加突出,無論對于語言現(xiàn)象本身的研究,還是對于信息檢索、機器翻譯、文本分類、自動分詞等應用系統(tǒng)的研究和開發(fā),都具有非常重要的意義。同樣,詞典開發(fā)不僅是自然語言處理研究的基礎性工作,也是字典編纂、語言教學等工作的重要環(huán)節(jié)。因此,本論文從事的大規(guī)模平衡語料的收集和分析工作,具有重要的理論意義和實用價值。</p><p> 自
31、動文本分類技術是在給定分類體系下,根據(jù)文本內(nèi)容確定其所屬類別[Kjersti et al., 1999]。隨著網(wǎng)絡和信息時代的到來,人們獲取信息的手段越來越豐富,可供選擇的信息量也成指數(shù)級膨脹。數(shù)據(jù)量的增長一方面為人們進行各種活動提供了充分的信息資源,另一方面也增加了人們選擇有用信息的難度,如何才能從浩如煙云的結果中找到自己需要的信息成為擺在人們面前一個新課題,最好的方式是讓計算機以一種自動的方式代替人去搜索,而一個好的搜索系統(tǒng),首先必
32、須能對千差萬別、來源各異的文本合理的分類和索引,這就是文本分類技術一個最重要的應用—信息檢索。</p><p> 自動文本分類技術是自然語言處理領域的一個重要課題。除了上面提到的信息檢索以外,文本分類還應用在其他許多方面,如:信息過濾、文檔索引、數(shù)字圖書館的分類和管理、詞義消歧、主題識別、語料庫建設、元數(shù)據(jù)生成等。</p><p> 本文主要包括三部分內(nèi)容。</p>&l
33、t;p> 第二章是大規(guī)模平衡語料的收集分析,主要介紹LC-STAR詞典和語料建設項目,并以此為基礎,比較和分析了不同領域的用詞特點。這一部分又可以分成兩大部分,第一部分主要是介紹與LC-STAR項目相關的語料收集和詞典建設工作,包括通用語料的收集和各種詞表(包括通用詞表、專有名詞、專用詞表、總詞表等)的抽取、詞性標注、注音等一系列工作。第二部分依據(jù)生成的詞表對不同詞類在各領域的分布情況從兩方面(詞匯量和各種詞類所占比例)進行了比
34、較分析。</p><p> 第三章是基于大規(guī)模真實語料的文本分類研究。根據(jù)第二章的分析我們知</p><p> 道不同領域各種詞類的分布差別比較大,所以我們選取詞作為文本分類的特征進行分類的研究。在這一部分,我們主要做了三方面的工作,第一部分介紹了現(xiàn)有的一些特征權重算法,比較了其優(yōu)劣,并提出了我們的改進算法;第二部分介紹了現(xiàn)有的一些特征抽取算法,并在對這些算法分析后,提出了我們的特征抽
35、取算法;第三部分設計了五個實驗,對上述提到的算法進行了對比,從實驗上證明了改進算法的有效性。</p><p> 最后一章對全文進行了總結。</p><p> 第二章大規(guī)模平衡語料的收集分析</p><p> 鑒于大規(guī)模平衡語料和大規(guī)模漢語詞典的重要性,中科院自動化所參加了由Sabanci大學、IBM、UPC、RWT、NSC、NOK、SIE、AudiTech、
36、Maribor大學參加的涉及到12國語言的語料和詞典建設項目(LC-STAR),該項目全稱是面向口語-口語翻譯技術的語料和詞典建設。主要目的是建立一個符合現(xiàn)代漢語語言行為的,適用于語音識別和語音合成的漢語標注語料和信息詞典。</p><p><b> 研究背景</b></p><p> 本項研究的基礎是中科院自動化所與諾基亞(中國)研究中心合作的歐盟項目(LC-S
37、TAR)(中文部分). 本論文的研究工作得到如下項目資助:</p><p> [1]國家自然科學基金項目“語音、圖像與視覺計算”(項目編號:60121302)</p><p> [2]歐共體國際合作項目(LC-STAR項目)“面向口語翻譯的詞匯處理”</p><p> LC-STAR(Lexica and Corpora for Speech-to-Speec
38、h Translation Technologies)(面向口語-口語翻譯技術的詞典和語料庫建設) 是由歐盟發(fā)起的,面向12國語言的資源建設項目.其目的是為加泰羅尼亞語、芬蘭語、德語、希臘語、希伯來語、意大利語、漢語、俄語、西班牙語、標準阿拉伯語、土耳其語和美式英語等12國語言,建立適用于語音識別、語音合成以及口語-口語翻譯的大規(guī)模標注語料庫和信息詞典(主要是詞性和注音信息)。</p><p> 國內(nèi)外語料庫概
39、況[馮志偉,2000]</p><p> 最初的語料庫的建設比較困難,需要大量的手工工作,隨著計算機在語言學研究領域的廣泛應用,這種狀況才得以改變,尤其是近年來,國內(nèi)外涌現(xiàn)出了很多標注詳細、加工深入、適合用于語言學研究的大規(guī)模語料庫。</p><p><b> 國內(nèi)語料庫概況</b></p><p> 美國Brown大學建立的BROWN語
40、料庫,英國Lancaster大學與挪威Oslo大學與Bergen大學聯(lián)合建立了LOB語料庫。歐美學者利用這兩個語料庫開展了大規(guī)模的研究,并對這兩個語料庫系統(tǒng)的部分語料進行了自動標注。</p><p> 此外比較著名的還有,London-Lund口語語料庫、AHI語料庫、OTA牛津文本檔案庫、BNC英語國家語料庫、LDC語言數(shù)據(jù)聯(lián)合會、RWC日語語料庫、亞洲各語種對譯作文語料庫。</p><p
41、><b> 國內(nèi)語料庫概況</b></p><p> 國內(nèi)早期的語料庫建設規(guī)模比較小,不是機器可讀的,比較大規(guī)?,F(xiàn)代機器可讀語料庫的建設是從1979年開始的,早期的機器可讀語料庫有:漢語現(xiàn)代文學作品語料庫(武漢大學,1979年,527萬字)、現(xiàn)代漢語語料庫(北京航空航天大學,1983年,2000萬字)、中學語文教材語料庫(北京師范大學,1983年,106萬字)、現(xiàn)代漢語詞頻統(tǒng)計語料
42、庫(北京語言學院,1983年,182萬字)。其中北京語言學院的現(xiàn)代漢語詞頻統(tǒng)計語料庫進行了語料切分和詞頻統(tǒng)計,共統(tǒng)計出31159各不同單詞,統(tǒng)計結果編成《現(xiàn)代漢語頻率詞典》</p><p> 1991年,國家語言文字工作委員會開始建立國家級的大型漢語語料庫,以推進漢語的語法、句法、語義和語用的研究,同時也為中文信息處理的研究提供語言資源,計劃其規(guī)模將達7000萬漢字。這個語料庫在時間上、文化上、使用領域上都有限
43、制。</p><p> 1992年以來,許多進行中文信息處理研究的機構都建立了自己的大規(guī)模真實文本語料庫如:《人民日報》光盤數(shù)據(jù)庫、北京大學計算語言學計算所、北京語言文化大學、清華大學、山西大學、上海師范大學、北京郵電大學、香港城市理工大學、東北大學、哈爾濱工業(yè)大學、中科院軟件研究所、中科院自動化所、北京外國語大學日本學研究中心、臺灣中央研究院語言研究所。下面重點介紹其中的幾個語料庫。</p>&
44、lt;p> 北京大學計算語言學研究所與富士通公司合作建立了現(xiàn)代漢語標注語料庫,加工了2700萬字的《人民日報》語料庫,加工項目包括詞語切分、詞性標注、專有名詞標注。還有多音字注音。北大語料庫的特點是:</p><p> 規(guī)模大:2700萬字的熟語料</p><p> 加工深:不僅做了切分和詞性標注,而且部分語料還進行了短語結構分析,建立了樹庫,并對人名、地名和專有名詞進行了短語
45、結構標注。</p><p> 覆蓋面廣:涉及社會科學和自然科學多個領域</p><p> 正確率高:在自動加工的基礎上進行了大量的人工加工,采用人機結合的策略,正確率達到了相當高的水平。</p><p> 北京語言文化大學建立了一系列中文語料庫,(共約5億字)共10個語料庫,主要是從《當代中國叢書》、《中華人民共和國年鑒》、《新聞出版報》、《人民日報》、《經(jīng)濟
46、日報》等書籍報刊中抽取的語料。</p><p> 清華大學也建立了現(xiàn)代漢語語料庫:1998年已達1億漢字,現(xiàn)在生語料已達7-8億字。他們還進行了分詞技術的深入研究,編制了信息處理用現(xiàn)代漢語分詞詞表,作為分詞重要的語言資源。對該語料進行了切分和標注,部分語料進行了語塊庫的人工標注。</p><p> 臺灣中央研究院建立了平衡語料庫和樹圖語料庫,兩個都是標記語料庫,有一定的加工深度。語料庫
47、規(guī)模為500萬字。</p><p> 中科院自動化所建立的面向旅游信息領域的口語對話語料庫。</p><p> 社科院語言所建立的現(xiàn)代自然口語語料庫[馮志偉,2000]。</p><p> 除上述語料庫以外,國內(nèi)外還有很多大學和研究機構建立了自己的語料庫,這里就不再一一陳述。</p><p> 大規(guī)模平衡語料的收集分析</p&g
48、t;<p> LC-STAR項目主要包括兩部分任務:語料的收集和詞表的抽取。我們收集了3087萬字的通用語料,并進行了詞性標注和注音,最后從這些語料中抽取了約40000個通用詞匯。最終的詞表包括三部分,除了上面提到的通用詞匯外,還抽取了50000多個專有名詞和7000多個專用詞匯。詞表中包括了詞性、注音信息和專用詞匯的領域信息,所有這些信息最終都包括在一部xml詞典中。</p><p> 語料和
49、詞表的編碼格式采用的是GB2312字符編碼格式</p><p> 通用語料的收集和通用詞匯的抽取</p><p><b> 通用領域的確定</b></p><p> 為了確定通用領域的范圍,我們對國內(nèi)外一些著名的語料庫進行了分析,這其中包括the Surrey of English Usage(SEU) Corpus,the Brown
50、Corpus, the Longman/Lancaster English Language Corpus(LLELC),the British National Corpus (BNC),以及清華大學的人工標注語料庫HanYu等等。此外,對一些網(wǎng)站的材料也進行了統(tǒng)計和研究如:人民網(wǎng)(www.people.com.cn) 3月20日至3月26日這一周之內(nèi)的材料和內(nèi)容的統(tǒng)計結果[Hu, 2002]:</p><p>
51、; 表2-1 人民網(wǎng)語料統(tǒng)計結果</p><p> 聯(lián)合早報網(wǎng)(www.zaobao.com.sg)的統(tǒng)計結果(3月20日至3月26日):</p><p> 表2-2 聯(lián)合早報網(wǎng)語料統(tǒng)計結果</p><p> 結合以上統(tǒng)計結果和12國合作伙伴的建議,下面這些領域被選擇作為通用領域。</p><p> 表2-3 通用領域的劃分<
52、/p><p><b> 通用語料的收集</b></p><p><b> 語料限制</b></p><p> 因為語料結構和出現(xiàn)時間對最終抽取的詞表有較大的影響,12國合作伙伴最終討論決定對對語料做如下限制:(1)語料結構:為了確保每個領域的語料都足夠充分,至少1M詞的領域語料是必需的。另外由于個人交流領域的語料收集起來
53、比較麻煩,所以該領域的詞的最小數(shù)量限制在0.5M。通用詞匯、專有名詞和專用詞匯之間盡量避免重復以獲取較多數(shù)量的總詞匯。如果重復出現(xiàn),要增加詞匯以保證最終得到不少于10M詞條;(2)語料時間:為了提高詞表的實用性,詞表應充分體現(xiàn)近幾年詞匯使用的特點。所有語料都必須是1990年以后,而且至少有50%的語料在1997年以后[Moreno, A. 2004]。</p><p><b> 語料來源:</b
54、></p><p> 最快捷,最方便的語料來源無疑是電子數(shù)據(jù)形式的語料:在線雜志、網(wǎng)站新聞、網(wǎng)上論壇、網(wǎng)上圖書館等。需要注意,無論什么來源的數(shù)據(jù)應當盡量避免“專業(yè)化詞匯”。具體來說,我們從以下幾個網(wǎng)站得到了我們的通用語料:</p><p> 表2-4 通用語料的來源網(wǎng)站</p><p><b> 語料規(guī)模</b></p>
55、<p> 表2-5 通用語料在各領域的分布</p><p><b> 通用詞匯的抽取</b></p><p> 通用詞匯是從收集的通用語料中抽取出來的,通用詞匯是指除去了專有名詞、各種標點符號、數(shù)字以后的詞匯,</p><p> 通用詞匯的抽取步驟:</p><p><b> 網(wǎng)頁下載與
56、處理:</b></p><p><b> 從以上網(wǎng)站下載網(wǎng)頁</b></p><p> 半自動的移除網(wǎng)頁中的“垃圾文字”(每個網(wǎng)頁中都有一些“本報記者”,“相關評論”等一些非內(nèi)容文本)。</p><p> 確認領域語料是否充分。</p><p><b> 自動分詞與抽取詞匯</b>
57、;</p><p><b> 分詞和詞性標注。</b></p><p> 抽取詞匯,同時統(tǒng)計出這些詞匯在各領域和總的頻率。</p><p> 從詞匯表中移除數(shù)字、標點符號、和專有名詞。</p><p><b> 規(guī)則抽詞</b></p><p> 計算詞表(無詞性)
58、標記下的總數(shù)量(約35000)小于50000,采用規(guī)則輔助分詞、人工校對的方法抽取了約3000個詞:</p><p><b> 觀察語料,抽取規(guī)則</b></p><p> 檢驗每一條規(guī)則:用該規(guī)則從一段文本中抽取部分詞匯,檢驗其正確率。剔除一些準確率較低的規(guī)則。最后得到共39條規(guī)則。</p><p> 用這39條規(guī)則從原始文本中抽取詞匯
59、,然后手工校正這部分詞匯,最后得到3534個新增詞匯。</p><p> 從原始語料中統(tǒng)計出這些詞匯在各領域和總的頻率。</p><p> 通用詞匯的數(shù)量:最終收集的通用詞匯的數(shù)量如下表所示</p><p> 表2-6 通用詞匯的數(shù)量</p><p><b> 通用詞匯的形式:</b></p>&l
60、t;p> 詞總體育/游戲新聞財經(jīng)文化/娛樂消費信息個人交流</p><p> 的1124287261676211699156988150346192932150646</p><p> 是283576705933912035205430524192653680</p><p> 在275370838235
61、949332817329953725328989</p><p><b> 通用詞匯的標注</b></p><p> 通用詞匯主要包括兩種標注信息:詞性標注和拼音標注。標注步驟及說明如下。</p><p><b> 通用詞匯的詞性標注</b></p><p> 分詞軟件分詞的同時也進
62、行了詞性的標注,所以抽取通用詞表的時候,實際上可以抽取出兩個詞表,帶詞性的詞表和不帶詞性的詞表。但是由于我們的分詞軟件采用的是973的標注體系,不同于LC-STAR的標注規(guī)范,所以要將詞性進行轉(zhuǎn)換,值得慶幸的是,觀察兩者的詞性定義后可以發(fā)現(xiàn)973的標注體系和LC-Star的體系有一個非常好的對應關系,所以只要我們建立一個詞性轉(zhuǎn)換對應表,就可以將詞性標注轉(zhuǎn)換稱LC-STAR的標注體系。LC-STAR的詞性標記說明見附錄1。</p&g
63、t;<p><b> 通用詞匯的注音</b></p><p><b> 給詞表標注漢語拼音</b></p><p><b> 手工校正多音字</b></p><p> 根據(jù)詞性,校正詞的注音</p><p> 建立拼音到SAMPA-C注音規(guī)范的轉(zhuǎn)換表(注
64、意:轉(zhuǎn)音情況),將拼音轉(zhuǎn)化為SAMPA-C的注音</p><p> 根據(jù)SAMPA-C注音后的詞表反生成拼音注音并排序的詞表,因為上述注音過程中手工校正了一些錯誤,所以為了保證詞表的一致性,需要反生成拼音注音并排序的詞表。</p><p><b> 封閉詞匯集</b></p><p> 各種語言都有一些功能詞如:代詞、介詞、連詞等,它們構
65、成了語言相對封閉的一個詞匯集,所以叫做封閉詞匯集。這些詞經(jīng)常出現(xiàn)在各個領域的語料中,但不是所有的功能詞都能在語料中發(fā)現(xiàn)。所以有必要手工加入功能詞。根據(jù)LC-STAR項目文件和漢語的特點,我們確定下面這些詞類為漢語的功能詞(括號中為對應的功能詞的數(shù)量):人稱代詞(26),物主代詞(37),指示代詞(49),前置詞(介詞)和后置詞(186),連詞(326),問答詞(31),情態(tài)動詞(21),量詞(547)。[郭先珍,2002],[黃檗容,1
66、997],[劉丹青,2003],[呂叔湘,1996],[張斌,2001].</p><p><b> 專有名詞的收集</b></p><p> 對于語音識別和語音合成系統(tǒng)來說,一個非常重要的問題就是如何處理各種語音系統(tǒng)中常見的專有名詞。通常很難決定他們的發(fā)音,特別是對于一些外來的專有名詞。而另一方面確定他們的準確發(fā)音,對于語音識別和語音合成系統(tǒng)來說又是必需的。因此
67、,我們從各個領域收集了57528個專有名詞,并對它們進行了注音和詞性標注工作。</p><p><b> 專有領域的確定</b></p><p> 根據(jù)12國的討論決定,最終確定主要從以下幾個領域及對應的子領域來收集專有名詞,見表2-7。</p><p> 表2-7 專有名詞的領域及子領域</p><p><
68、b> 專有名詞的收集</b></p><p> 根據(jù)12個合作伙伴討論決定,專有名詞領域至少應當包括45000個詞條,三個大領域每個領域的詞條數(shù)目所占總詞條數(shù)目的百分比均應限制在10% - 50%之間,當然三個領域詞條數(shù)目之和應當?shù)扔诳偟膶S忻~數(shù)。詞形相同的專有名詞和通用詞匯認為是兩個不同的詞條。</p><p> 專有名詞的來源主要有以下幾個方面:超星數(shù)字圖書館
69、、網(wǎng)上黃頁、世界地圖集。專有名詞收集時都選擇該詞最常用的形式,如“IBM”就保持這種形式,不會用其全稱“International Business Machines”。因為專有名詞的收集面向的語音識別和語音合成,所以收集時盡量采用其口語性較強的形式,比如盡量采用用戶手冊上的公司名稱,而不是證券市場上登記的公司名稱。同樣道理在線資源也比較適合用來收集。</p><p><b> 專有名詞的標注<
70、/b></p><p><b> 專有名詞的詞性標注</b></p><p> 專有名詞收集的時候是分類收集的,所以其詞性本身已經(jīng)確定,不需要專門使用標注軟件進行詞性標注。</p><p> 專有名詞的詞性說明:PER(人名);GEO(各國地理名詞);COU(國家);CIT:(城市:國內(nèi)城市、國際著名城市、各國首都);STR(國內(nèi)著
71、名街道);COM(公司組織:盈利和非盈利組織、國際國內(nèi)公司);BRA(品牌名稱);TOU(國內(nèi)著名的文化歷史景點)。</p><p><b> 專有名詞的注音</b></p><p><b> 給詞表標注漢語拼音</b></p><p><b> 手工校正多音字</b></p>&
72、lt;p> 根據(jù)詞性校正詞的注音</p><p> 將拼音轉(zhuǎn)化為SAMPA-C的注音:這是因為SAMPA-C的注音體系是為了便于國際交流,專門為漢語注音設定的一套注音符號。它與漢語拼音有一個完整的對應,根據(jù)對應表我們可以將拼音轉(zhuǎn)化SAMPA-C的注音體系。其間需要增加對數(shù)字和括號的注音,同時還發(fā)現(xiàn)了詞表的一些錯誤,需要手工校正。</p><p> 根據(jù)SAMPA-C注音后的詞表
73、反生成拼音注音并排序的詞表</p><p> 設計了英語音標到SAMPA-C符號的對應表對專有名詞中的外來詞匯進行注音。(手工完成)</p><p> 專有名詞的數(shù)量和形式</p><p> 最終得到的專有名詞的數(shù)量如下:</p><p> 表2-8 專有名詞各領域詞數(shù)及所占比例</p><p><b&g
74、t; 專有詞表的形式:</b></p><p><b> 阿迪達斯BRA</b></p><p><b> 阿庫拉BRA</b></p><p><b> 阿勒錦BRA</b></p><p><b> 專用詞匯的收集</b>&
75、lt;/p><p> 為了滿足與“語音驅(qū)動”密切相關的幾個應用領域的要求,我們收集了約5000個專用詞,他們都與其所屬的領域密切相關。有些詞在書面語料中不常出現(xiàn),但是對于真實的語音應用來說卻是必需的。建立專用詞表的目的就在于保證在最終的詞典包含有這些詞。</p><p> 詞表主要包括兩部分:數(shù)詞和其他領域密切相關的專用詞匯。數(shù)詞由我們給出;其他詞匯首先由合作伙伴從限定的應用領域中抽取,并
76、以英語的形式給出詞和詞性,對于動詞還會用英語給出例句和場景說明。我們的工作就是將這些詞匯翻譯成漢語詞匯,并給出動詞的例句。</p><p><b> 專用領域的確定</b></p><p> 經(jīng)過LC-STAR項目12國合作伙伴討論最終將專用領域確定為7大領域、47子領域,共5000多個詞條,具體見附錄2。</p><p><b>
77、; 專用詞匯的來源</b></p><p> 數(shù)據(jù)源/媒體沒有特別的指定,總的來說有下面幾種:詞典、技術文檔、出版社提供的基本詞匯,除此之外電子資源當然還是最方便的方式。數(shù)字應當是從詞典或者其他資源中獲取的,所有不能用組合規(guī)則得到的數(shù)字都應當包括在詞表中。所有用于日期和星期的序數(shù)詞都必須被提供。</p><p> 專用詞匯的數(shù)量和形式</p><p&g
78、t; 最終我們收集的專用詞匯為7521個,包括每個詞的領域信息、詞性、例句(針對動詞)、注釋等,具體形式見表2-9。</p><p> 表2-9 專用詞表的形式</p><p> 說明:ID - 領域代號,Nr― 該條目在其所屬領域的序號,英文術語―術語的英語形式,詞性―詞性,翻譯― 術語的漢語翻譯,舉例―對于動詞術語需要列舉1~2個例句,注釋 - 其他需要說明的&l
79、t;/p><p> 專用詞匯的形式說明:每一個詞條都應當對應唯一的ID值,翻譯的基礎是每一行的“英文術語”欄。每個英文術語盡量翻譯成一個漢語詞匯,翻譯結果存放在表中“翻譯”欄。如果有英文術語對應的漢語詞匯不止一個,為每個漢語詞匯單列一行。采用領域內(nèi)序號(Nr)后面按順序添加字母的方式來區(qū)別不同的翻譯結果。例如</p><p> 如果某個詞在目標語言中不存在,就用一個近似詞或短語代替,如果這
80、樣的詞也不能找到,那就在注釋欄標記“NE”。每個領域至少要有500個詞條。需要為每個動詞術語列舉1~2個例句。</p><p><b> 專用詞匯的標注</b></p><p> 專用詞匯的標注同專有詞匯的標注過程。</p><p><b> 注音</b></p><p> 我們首先為每個詞
81、條標注了拼音,然后根據(jù)拼音到SAMPA-C 符號的轉(zhuǎn)換關系,將拼音轉(zhuǎn)換成SAMPA-C注音符號。SAMPA-C注音符號是專門針對普通話的發(fā)音特點設定的一套語音標注系統(tǒng),其發(fā)音符號及對應的說明見附錄3。</p><p> 漢語中,每個音節(jié)單個出現(xiàn)的時候都有一個缺省音調(diào)。但是,在連續(xù)口語中,由于連續(xù)變調(diào)的影響,一個漢字的實際音調(diào)可能會不同于其缺省音調(diào)。連續(xù)變調(diào)指的是決定音調(diào)根據(jù)前后音節(jié)而變化的一組規(guī)則。最重要的規(guī)則
82、是當兩個上聲相連時,前一個上聲將變成陽平。例如: “五<wu3> 百<bai3>”的實際發(fā)音應當是“wu2 bai3”。這里“wu3”是缺省發(fā)音,因為后面跟的拼音也是上聲,所以“wu”的發(fā)音變調(diào)為陽平。注音時可以注為:“wu32”,這樣缺省音調(diào)和實際音調(diào)都可表示出來。附錄4列舉出了常見的連續(xù)變調(diào)規(guī)則。根據(jù)LC-STAR成員討論后,對注音做以下約定。</p><p> 音調(diào)標記采用以下形式
83、:_0、_1、_2、_3、_4 分別代表輕音、陰平、陽平、上聲、去聲。</p><p> 連字號(-)也被用作音節(jié)標記。</p><p> 多音字首先標注出所有的讀音,然后根據(jù)詞性手工校正注音。(因為對應于不同的詞性,詞的注音是不同的)。</p><p> 外來詞的注音。為了統(tǒng)一標注符號,我們建立了從英語音素到SAMPA-C的對應表,從而外來詞的標注也可以采用
84、SAMPA-C標注體系,英語因素到SAMPC-C音素的映射見附錄5。</p><p><b> 詞典形式</b></p><p> 最終我們將幾部分詞:通用詞表(包括封閉詞匯)、專有名詞、專用名詞,合并成一個總詞數(shù)超過10M的總詞表,并以國際上通用的數(shù)據(jù)交換格式XML文檔的形式給出,當然詞性、注音、和領域信息也是包含在這個詞表中的。</p><
85、p><b> XML格式說明</b></p><p> 因為XML標記語言具有清晰,明確,易讀性強等特點,所以項目約定采用它來描述語言信息。采用XML標記語言也便于合作者之間的信息交流。使用的XML解析器應當能夠處理任何1.0版本的XML文檔和UTF-16編碼。</p><p> 詞典由很多“條目組”元素構成。</p><p>
86、“條目組”指詞表的一個類條目。每個條目組必須包含以下元素:</p><p><b> 正詞法</b></p><p> 0個或者更多的其他拼寫形式</p><p> 一個或者更多的“條目”(復合詞或者縮寫詞)子元素</p><p> “條目”指“類條目”的一個特定的語法/詞形信息。每個條目必須包含以下子元素:&l
87、t;/p><p> 詞性以及相應的屬性(漢語詞匯沒有屬性)。在一個條目組中使用多個條目來表示多標記或者多屬性。</p><p> 詞形。指于對應于條目的一個詞形的字符串,使用多條目來表示多詞形的情況。</p><p> 注音。包括注音和音節(jié)標記。如果有多個發(fā)音,要表示在同一個條目組下的不同條目中。</p><p> 應用詞。每個應用詞都要
88、指定一個“APP”標記?!癆PP”標記的結構如下:</p><p> Subdomain_type1 No_of_entry 1 </p><p><b> … </b></p><p> Subdomain_typeN No_of_entryN</p><p> 復合條目包括下面這些元素:</p>
89、<p><b> 注音;</b></p><p> 兩個或更多的相互聯(lián)系的條目元素。每一個條目元素必須包含一個正字法和詞性標注以及與詞性標記相對應的屬性。</p><p> 縮寫:應用詞中的縮寫必須有“ABB”標注以及一個或更多的擴展標注。此外還要包括以下內(nèi)容:</p><p> 該縮寫實際的擴展形式。</p>
90、<p> 一個條目或者復合條目元素。</p><p> 屬性:每個屬性有一個預設值“NS”(沒有指定),這個值在DTD文檔中總是可選的。當指定語言中沒有該屬性時標注該屬性為“NS”。</p><p> 附錄6中是部分詞條的邏輯結構及其對應的XML文件部分。</p><p><b> 詞典劃分</b></p>&
91、lt;p> 根據(jù)項目要求,我們將詞典分成兩部分:專有詞典和通用詞典。這兩部分需要進一步分成更小的容易處理的文件。而且劃分必須建立在字母排序的基礎上。 </p><p> 通用詞匯、專用詞表中的HLD和PUN應當包括在通用詞表中(從LEXIC08-LEXIC13)。專用詞表中的專有名詞、專有名詞應當包括在專有詞典中(從LEXIC000-LEXIC07)。這兩部分詞典中首先按照拼音排序,再把包含有外來詞匯的
92、詞放在其他詞的前面。</p><p><b> DTD文檔描述</b></p><p> 文檔類型定義(DTD)是為XML文檔正式指定的語法。這種語法包括自動確認工作中規(guī)定的所有語言信息。LC-STAR所有語言的詞典使用共同的DTD文檔,這個文檔已上載到該項目的主頁上。每個合作伙伴可以根據(jù)其語言的特點修改該DTD文檔,建立復合自身語言特點的DTD文檔。</p
93、><p> DTD文檔(LEXICON.DTD)見附錄7。</p><p> 大規(guī)模平衡語料的分析[陳克利,2003]</p><p> 在LC-STAR項目的基礎上,我們對收集的通用語料進行了用詞特點的初步分析。分析的目的在于比較不同領域常用詞匯量和各種詞類使用頻率的差異性,量化的分析各領域之間用詞特點的不同。從而為基于內(nèi)容的分類研究提供理論依據(jù)。</p&
94、gt;<p><b> 語料和詞表說明</b></p><p> 本項研究的基礎是我們(中科院自動化所)與諾基亞(中國)研究中心合作為歐盟項目(LC-STAR)建設的3087萬字的漢語語料庫[Hu et al, 2002;Cao et al, 2002]。語料主要來源于五大中文網(wǎng)站(新浪網(wǎng)、人民網(wǎng)、中青論壇網(wǎng)、三九健康網(wǎng)、科學時報網(wǎng)),收集策略以綜合網(wǎng)站為主、專業(yè)網(wǎng)站為輔;
95、時間上主要集中在近五年以內(nèi),盡量涵蓋了這幾年出現(xiàn)的一些新領域,時間和覆蓋面上都具有相當?shù)膹V泛性和代表性。目前我們將語料主要分成六大領域:體育、娛樂和游戲、財經(jīng)、新聞、個人交流和消費信息。其中消費信息領域包括三個方面:健康、大眾科學、消費科技;個人交流主要是從網(wǎng)上論壇收集的;新聞包括國內(nèi)和國際兩個方面。每個領域的語料都在300萬字以上。</p><p> 從這些語料中共抽取了42923個詞(除去分詞、標注錯誤,覆
96、蓋率達到了99.62%),建立了總詞表、各領域詞表、各領域常用詞表、各領域?qū)S迷~表共四個詞表。這里首先說明幾個我們約定的術語:</p><p> 詞頻:某詞在所統(tǒng)計范圍中出現(xiàn)的次數(shù)除以該統(tǒng)計范圍所有詞的次數(shù)之和。</p><p> 詞表覆蓋率:詞表對所統(tǒng)計范圍的覆蓋率,等于該詞表中所有詞在所統(tǒng)計范圍內(nèi)的詞頻之和。</p><p> 各領域常用詞表:從各領域詞表
97、中按照頻率從高到低取詞建立的覆蓋率達90%的詞表。</p><p> 各領域?qū)S迷~表:由本領域內(nèi)出現(xiàn)頻率大于等于0.0005%,在其他領域出現(xiàn)頻率之和小于等于0.0001%的詞構成的詞表。</p><p> 在下文中,我們使用下面幾個符號代替這六個領域:SPO代表體育領域;ENT代表娛樂和游戲領域;FIN代表財經(jīng)領域;NEW代表新聞領域;PER代表個人交流領域;CON代表消費信息領域。
98、</p><p><b> 統(tǒng)計結果</b></p><p><b> 各領域詞匯量的分布</b></p><p> 表1中,列出了各領域詞匯量、常用詞匯量、專用詞匯量、專用詞匯覆蓋率的統(tǒng)計結果。</p><p> 表2-10 各領域詞匯量的分布</p><p>
99、從表1各領域詞匯量的統(tǒng)計結果可以看出:</p><p> 各領域所用到的詞匯量差別很大。詞匯量最大的PER(共34879)是最小的NEW(11299)的詞匯量的三倍還要多。這主要是因為PER實際上是一個綜合領域,它包括很多主題,所以用到的詞匯量很大。但是該領域又不完全等同于其他幾個領域的簡單相加,因為它使用的詞匯更具有口語的特性,而其他幾個領域以書面用語為主。除了PER以外,詞匯量較大的是CON,這是因為它包括
100、三個子領域,涉及范圍很廣。從上面的比較可以看出與人們?nèi)粘I?、日常交流?lián)系越緊密、涉及的范圍越廣的領域詞匯量就越大,反之,詞匯量就越小。</p><p> 相比各領域詞匯量而言,各領域常用詞匯量之間的差別雖然不是很大,但也是很明顯的,詞匯量最大的PER(6352)比最小的SPO(3737)也多出70%。</p><p> 各領域?qū)S迷~匯量的比例是很低的。從表中可以看出每個領域?qū)S迷~匯量
101、都不是很大,最多也只有460個,領域覆蓋率只有0.7949%,而且這類詞在各領域中出現(xiàn)的頻率普遍比較低,所以在領域劃分時不能過分倚重這類詞。</p><p> 各領域詞類分布的比較</p><p> 統(tǒng)計了領域詞匯量以后,我們又對領域詞類的分布進行了統(tǒng)計。在我們的工作中,漢語詞類分為如下幾類:數(shù)詞(NUM)、名詞(NOM)、介詞(ADP)、形容詞(ADJ)、副詞(ADV)、代詞(PRO
102、)、連詞(CON)、動詞(VER)、量詞(MEW)、輔助詞(AUW)、其他詞(OTHERS)。各領域詞類及常用詞類分布如圖1、圖2所示。</p><p> 從詞類分布可以看出各領域的用詞特點,如:名詞在消費信息領域(CON)中使用頻率最高,在個人交流領域(PER)中使用頻率最低。主要因為前者有三個子領域:健康、大眾科學、消費科技,所以要涉及到很多疾病、新產(chǎn)品、新技術的名稱。相對而言后者涉及到更多的口語,名詞使用
103、率要低一些。同樣個人交流領域(PER)代詞的使用率(6.80%)是財經(jīng)領域(FIN)代詞使用率(2.39%)的兩倍還要多。這也很容易理解,因為個人交流中我、你、她等代詞的使用頻率是相當高的,但是財經(jīng)領域(FIN)使用這種詞匯的幾率顯然要小的多。常用詞表各種詞類的分布情況和總詞表大致相同。</p><p><b> 結論</b></p><p> 從上面的統(tǒng)計結果可
104、以看出,不同領域之間詞匯量、常用詞匯量、專用詞匯量、專用詞匯覆蓋率等都有很大的不同。同一詞類的分布特性也因領域各異。從統(tǒng)計學上,我們可以選取“詞”作為文本分類的特征,建立基于內(nèi)容的文本分類系統(tǒng)。這也是現(xiàn)在大多數(shù)基于內(nèi)容的文本分類系統(tǒng)的選擇“詞”來作為分類特征的原因。</p><p> 第三章基于大規(guī)模真實語料的文本分類方法</p><p> 自動文本分類技術是在給定分類體系下,根據(jù)文
105、本內(nèi)容確定其所屬類別。隨著網(wǎng)絡和信息時代的到來,人們獲取信息的手段越來越豐富,可供選擇的信息量也成指數(shù)級膨脹,尤其是以網(wǎng)絡為代表的信息傳播方式。數(shù)據(jù)信息的增長帶來了兩方面的結果,一方面:為人們進行各種活動提供了充分的資源,而且通過網(wǎng)絡相當?shù)谋憬荩涣硪环矫妫阂獜暮迫缭茻煹慕Y果中找到自己真正需要的信息也越來越困難,除非能夠以一種自動的方式讓計算機幫助去查找。而一個好的查找系統(tǒng),首先最關鍵的是要對千差萬別的各種來源的文本進行合理的分類和整理。
106、這就是文本分類技術一個最重要的應用――信息檢索。</p><p> 自動文本分類技術是自然語言處理領域的一個重要課題。除了上面提到的信息檢索以外,文本分類還可以應用在許多方面,如:信息過濾、文檔索引、數(shù)字圖書館的分類和管理、詞義消歧、主題識別、語料庫建設、元數(shù)據(jù)生成以及其他需要組織文檔的方面。</p><p> 信息過濾實際上就是一個分類問題,而且很多時候過濾的依據(jù)也是信息的內(nèi)容。而網(wǎng)
107、絡上絕大部分信息都是以文本的形式傳播的,所以好的自動文本分類技術可以大大提高過濾的準確性。</p><p> 語料庫的建設和數(shù)字圖書館的分類中都需要給文檔建立索引,而如果完全靠手工的方式將數(shù)以百萬記的文檔分類、索引,不但費時費力,而且準確率也很難保證。最好的辦法是訓練一個自動分類系統(tǒng),以自動分類為主,手工校正為輔,不但可以大大節(jié)省人力和時間,而且也可以保證分類的正確率。</p><p>
108、 眾所周知,詞義消歧是機器翻譯、信息檢索、語音識別、語音合成等研究領域的一個難點,而詞義的一個非常明顯的特點就是往往具有領域相關性,所以只要能夠根據(jù)上下文信息確定所屬領域,詞義就可以限定在一個較小的范圍之內(nèi)甚至完全確定。而根據(jù)文本信息確定領域恰恰正式文本分類的任務。</p><p> 信息資源元數(shù)據(jù)的常見元素:主題識別、描述、類型等的生成,也都與基于內(nèi)容的文本分類密切相關。</p><p&
109、gt; 已有的文本分類方法簡介</p><p> 文本分類的研究歷史比較長,最早的研究可以追溯到20世紀60年代。直到上世紀80年代,最有效的分類方法還是基于知識工程的方法,通常是由領域?qū)<腋鶕?jù)語料特點和分類體系總結出一套規(guī)則,基于這些規(guī)則建立自動分類器。這種分類器的建立費時費力,而且由于規(guī)則往往具有語料相關性,任務語料改變了,分類器的規(guī)則就要重新建立。</p><p> 進入90年
110、代以來,隨著網(wǎng)絡和信息技術的發(fā)展,大批的在線語料觸手可得,計算機技術的應用也加快了計算相關技術的發(fā)展,這一切都促進了基于機器學習的文本分類技術的產(chǎn)生和發(fā)展,并逐漸取代了知識工程的方法。[Sebastiani, 1999]. 這種方法通常依據(jù)一定的數(shù)學公式,從預分類的訓練語料中學習參數(shù)自動建立分類器。由于參數(shù)是自動學習的,所以大大節(jié)省了人力和時間,而且往往也不需要太多的專家知識。最常見的基于機器學習的文本分類方法有:純貝葉斯方法、Roc
111、chio方法、k近鄰算法、支持向量機、決策樹算法、神經(jīng)網(wǎng)絡算法[Aas, 1999]、LLSF(線性最小二乘擬和)[Yang, 1999]、最大墑方法[Nigam, 1999].</p><p><b> 純貝葉斯方法</b></p><p> 純貝葉斯方法是一種基于最大似然估計的方法。根據(jù)貝葉斯理論:</p><p><b>
112、 (公式3-1)</b></p><p> 其中,是類Ci在文檔d時的條件概率(文檔d屬于類Ci的概率);是文檔d在類Ci下的條件概率;是類Ci的概率;是文檔d的概率。在比較文檔d分別屬于幾個類別的概率時,分母是相同的,所以只要比較分子的大小。</p><p> 和可以通過下面的公式得到:</p><p> 其中,是訓練語料中屬于類Ci的文件數(shù);
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 大規(guī)模層次文本分類解決方案
- 基于機器學習的大規(guī)模文本分類.pdf
- 大規(guī)模文本分類的若干問題研究.pdf
- 大規(guī)模層次文本分類的解決方案.pdf
- 大規(guī)模異構環(huán)境下的文本分類算法研究及應用.pdf
- 大規(guī)模Web信息抽取與文本分類研究.pdf
- 大規(guī)模短文本的分類過濾方法研究.pdf
- 基于支持向量機的大規(guī)模文本分類研究與設計.pdf
- 基于大規(guī)模人工神經(jīng)網(wǎng)絡的可擴展文本分類算法研究.pdf
- 文本分類方法及應用研究.pdf
- 短文本分類方法研究.pdf
- 面向大規(guī)模短文本的分類技術研究.pdf
- 文本分類的特征選擇和分類方法研究.pdf
- 規(guī)模豬場豬瘟免疫效果分析及防治技術研究碩士論文
- 層次化文本分類方法的研究.pdf
- 基于TAN的文本分類方法研究.pdf
- 文本分類特征選擇方法研究.pdf
- 文本分類語料庫自動構建系統(tǒng)的研究與改進.pdf
- 大規(guī)模語料庫分詞質(zhì)量評價方法研究.pdf
- 大規(guī)模不均衡數(shù)據(jù)分類方法研究.pdf
評論
0/150
提交評論