![](https://static.zsdocx.com/FlexPaper/FileRoot/2019-9/10/15/96d115f7-acfa-446d-ab0d-6b506969823e/96d115f7-acfa-446d-ab0d-6b506969823epic.jpg)
![【人工智能_人工智能導(dǎo)論課件】第10章自然語(yǔ)言理解_第1頁(yè)](https://static.zsdocx.com/FlexPaper/FileRoot/2019-9/10/15/96d115f7-acfa-446d-ab0d-6b506969823e/96d115f7-acfa-446d-ab0d-6b506969823e1.gif)
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、第 10 章 自然語(yǔ)言處理及其應(yīng)用,教材: 王萬(wàn)良《人工智能導(dǎo)論》(第3版) 高等教育出版社,第10章 自然語(yǔ)言處理及其應(yīng)用,如果計(jì)算機(jī)能夠理解、處理自然語(yǔ)言,這將是計(jì)算機(jī)技術(shù)的一項(xiàng)重大突破。自然語(yǔ)言理解的研究在應(yīng)用和理論兩個(gè)方面都具有重大的意義。本章首先自然語(yǔ)言理解的概念以及發(fā)展歷史,然后從應(yīng)用角度介紹機(jī)器翻譯和語(yǔ)音識(shí)別技術(shù)。,2,第10章 自然語(yǔ)言處理及其應(yīng)用,10.1 自然語(yǔ)言理解的概念
2、與發(fā)展歷史 10.2 語(yǔ)言處理過(guò)程的層次10.3 機(jī)器翻譯10.4 語(yǔ)音識(shí)別,3,第10章 自然語(yǔ)言處理及其應(yīng)用,10.1 自然語(yǔ)言理解的概念與發(fā)展歷史 10.2 語(yǔ)言處理過(guò)程的層次10.3 機(jī)器翻譯10.4 語(yǔ)音識(shí)別,4,10.1.1 自然語(yǔ)言理解的概念,微觀角度:從自然語(yǔ)言到機(jī)器內(nèi)部的一個(gè)映射。宏觀角度:使機(jī)器能夠執(zhí)行人類所期望的某種語(yǔ)言功能。,(1)回答問(wèn)題:計(jì)算機(jī)正確地回答用自然語(yǔ)言輸入的有關(guān)問(wèn)題。(2)文摘
3、生成:機(jī)器能產(chǎn)生輸入文本的摘要。 (3)釋義:機(jī)器能用不同的詞語(yǔ)和句型來(lái)復(fù)述輸入的自然語(yǔ)言信息。(4)翻譯:機(jī)器能把一種語(yǔ)言翻譯成另外一種語(yǔ)言。,5,10.1.2 自然語(yǔ)言理解研究的產(chǎn)生與發(fā)展,1. 萌芽時(shí)期(20世紀(jì)40年代末50年代初),2. 以關(guān)鍵詞匹配技術(shù)為主的時(shí)期 (20世紀(jì)60年代始),A. Donald Booth & W. Weaver M. Chomsky 形式語(yǔ)言和文法,3. 以句法語(yǔ)義分析技術(shù)為主的
4、時(shí)期 ( 20世紀(jì)70年代后),4. 基于知識(shí)的自然語(yǔ)言理解發(fā)展時(shí)期,5. 基于大規(guī)模語(yǔ)料庫(kù)的自然語(yǔ)言理解發(fā)展時(shí)期,68年B. Raphael:語(yǔ)義檢索系統(tǒng)SIRJ. Weizenbaum:心理醫(yī)療ELIZA,72年W. Woods:語(yǔ)音接口LUNART. Winograd :英語(yǔ)對(duì)話SHEDLU,6,第10章 自然語(yǔ)言處理及其應(yīng)用,10.1自然語(yǔ)言理解的概念與發(fā)展歷史 10.2 語(yǔ)言處理過(guò)程的層次10.3 機(jī)器翻譯10.4
5、 語(yǔ)音識(shí)別,7,文字表達(dá)句子的層次:詞素→詞或詞形→詞組或句子。聲音表達(dá)句子的層次:音素→音節(jié)→音詞→音句。 語(yǔ)言處理過(guò)程分為五個(gè)層次:語(yǔ)音分析、詞法分析、句法分析、語(yǔ)義分析和語(yǔ)用分析。 語(yǔ)用分析:研究語(yǔ)言所存在的外界環(huán)境對(duì)語(yǔ)言使用產(chǎn)生的影響。構(gòu)成單詞發(fā)音的獨(dú)立單元是音素。上下文不同而發(fā)音不同。 語(yǔ)音分析就是根據(jù)音位規(guī)則,從語(yǔ)言流中區(qū)分出一個(gè)個(gè)獨(dú)立的音素,再根據(jù)音位形態(tài)規(guī)則找出一個(gè)個(gè)音節(jié)及其對(duì)應(yīng)的詞素或詞。,10.2 語(yǔ)言處理
6、過(guò)程的層次,8,1. 詞法分析,定義:從句子中切分出單詞,找出詞匯的各個(gè)詞素 ,并確定其詞義。,例:unchangeable: un-change-able,英語(yǔ)詞法分析 特點(diǎn):切分單詞容易,找出詞素復(fù)雜。,例:importable分為 import-able或 im-port-able,詞法分析算法舉例:repeatlook for word in dictionary
7、 if not found then modify the wordUntil word is found or no further modification possible,9,1. 詞法分析,例如:對(duì)于單詞catches、ladies可以做如下的分析。 catches ladies, 詞典中查不到 catche ladie 修改1:
8、去掉s catch ladi 修改2:去掉e lady 修改3:把i變成y這樣,在修改2的時(shí)候,就可以找到catch,在修改3的時(shí)候就可以找到lady。,例如:優(yōu)秀人才學(xué)人才學(xué)1. 優(yōu)秀人-才學(xué)人才學(xué)2. 優(yōu)秀人才-學(xué)人才學(xué),漢語(yǔ)詞法分析 特點(diǎn):找出詞素簡(jiǎn)單,切分出詞困難。,ly副詞后輟;ed動(dòng)詞過(guò)去分詞,10,,,1
9、型文法: 上下文有關(guān)文法,2型文法:上下文無(wú)關(guān)文法,3型文法:正則文法,左線性文法:A→Bt 或 A→t(A→Bt→Ct*t)右線性文法 : A→tB或A→t,產(chǎn)生式規(guī)則: x→y,產(chǎn)生式規(guī)則: x→y例:AB→CDE √ ABC→DE × XaY→XbY,產(chǎn)生式規(guī)則:A→x,0型文法:無(wú)約束短語(yǔ)結(jié)構(gòu)文法,2. 句法分析: 喬姆斯基的形式文法,11,3. 語(yǔ)義分析,語(yǔ)義分析是將句法成分與應(yīng)用領(lǐng)域中的
10、目標(biāo)表示相關(guān)聯(lián)。,簡(jiǎn)單做法:依次使用獨(dú)立的句法分析程序和語(yǔ)義解釋程序。缺點(diǎn):使句法分析、語(yǔ)義分析分離,語(yǔ)義文法格文法,12,語(yǔ)義文法是將文法知識(shí)和語(yǔ)義知識(shí)組合起來(lái),以統(tǒng)一的方式定義為文法規(guī)則集。,艦船信息:S→PRESENT the ATTRIBUTE OF SHIPPRESENT→What is|Can you tell meATTRIBUTE→length|classSHIP→the SHIPNAME|CLASSNAME
11、SHIPNAME→HUANGHE|CHANGJIANGCLASSNAME→carrier|submarine,3. 語(yǔ)義分析,13,目的:為了找出動(dòng)詞和跟動(dòng)詞處在結(jié)構(gòu)關(guān)系中的名詞的語(yǔ)義關(guān)系,同時(shí)也涉及動(dòng)詞或動(dòng)詞短語(yǔ)與其他的各種名詞短語(yǔ)之間的關(guān)系。,特點(diǎn):允許以動(dòng)詞為中心構(gòu)造分析結(jié)果,盡管文法規(guī)則只描述句法,但分析結(jié)果產(chǎn)生的結(jié)構(gòu)卻對(duì)應(yīng)于語(yǔ)義關(guān)系,而非嚴(yán)格的句法關(guān)系。,例:Mary hit Bill Bill was
12、hit by Mary (Hit(Agent Mary) (Dative Bill)),3. 語(yǔ)義分析,14,S,S,NP,NP,VP,VP,V,NP,V,PP,Bill,Mary,hit,was hit,by,Bill,Mary,,,,,,,,,,,,,,,,主動(dòng)句和被動(dòng)句的句法分析樹(shù),3. 語(yǔ)義分析,15,第10章 自然語(yǔ)言理解及其應(yīng)用,10.1 自然語(yǔ)言理解的概念與發(fā)展歷史 10.2 語(yǔ)言處理過(guò)程的層次10.
13、7 機(jī)器翻譯10.8 語(yǔ)音識(shí)別,16,10.3 機(jī)器翻譯,10.3.1 機(jī)器翻譯方法概述 10.3.2 翻譯記憶,17,10.3.1 機(jī)器翻譯方法概述,發(fā)展歷程:,,,,,,,18,1. 直譯式翻譯系統(tǒng)(direct translation MT systems) 通過(guò)快速的分析和雙語(yǔ)詞典,將原文譯出。,2. 規(guī)則式翻譯系統(tǒng)(rule-based MT systems) 先分析原文內(nèi)容,產(chǎn)生
14、原文的句法結(jié)構(gòu),再轉(zhuǎn)換成譯 文的句法結(jié)構(gòu),最后再生成譯文。,10.3.1 機(jī)器翻譯方法概述,19,,3. 中介語(yǔ)式翻譯系統(tǒng)(inter-lingual MT systems) 先生成一種中介的表達(dá)方式,而非特定語(yǔ)言的結(jié)構(gòu); 再由中介的表達(dá)式,轉(zhuǎn)換成譯文。,基于規(guī)則的翻譯,中介語(yǔ)式的翻譯,10.3.1 機(jī)器翻譯方法概述,20,,4. 知識(shí)庫(kù)式翻譯系統(tǒng)(knowledge-based MT
15、systems) 翻譯經(jīng)常需要除了詞匯之外的各種知識(shí),使用知識(shí)獲取工具(knowledge acquisition),以充實(shí)知識(shí)庫(kù)的內(nèi)容。,6. 范例式翻譯系統(tǒng)(example-based MT systems ) 將過(guò)去的翻譯結(jié)果,當(dāng)成范例,產(chǎn)生一個(gè)范例庫(kù)。,5. 統(tǒng)計(jì)式翻譯系統(tǒng)(Statistics-based MT systems ) 源語(yǔ)言中任一句子都可能是目標(biāo)語(yǔ)言中某些句子相似。,7. 混合式翻譯系統(tǒng)(S
16、tatistics-based MT systems ) 同時(shí)采用多種策略,以達(dá)成翻譯的目標(biāo)。,10.3.1 機(jī)器翻譯方法概述,21,基本原理:用戶利用已有的原文和譯文,建立起一個(gè)或多個(gè)翻譯記憶庫(kù),在翻譯過(guò)程中,系統(tǒng)將自動(dòng)搜索翻譯記憶庫(kù)中相同或相似的翻譯資源(如句子、段落等),給出參考譯文,使用戶避免無(wú)謂的重復(fù)勞動(dòng),只需專注于新內(nèi)容的翻譯。翻譯記憶庫(kù)同時(shí)在后臺(tái)不斷學(xué)習(xí)和自動(dòng)儲(chǔ)存新的譯文,變得越來(lái)越“聰明”。,德國(guó)塔多思(TRAD
17、OS)公司的翻譯記憶軟件基于UNICODE(統(tǒng)一字符編碼),支持55種語(yǔ)言,覆蓋了幾乎所有語(yǔ)言版本的 Windows95/98/NT 。,10.3.2 翻譯記憶,22,第10章 自然語(yǔ)言理解及其應(yīng)用,10.1 自然語(yǔ)言理解的概念與發(fā)展歷史 10.2 語(yǔ)言處理過(guò)程的層次10.3 機(jī)器翻譯10.4 語(yǔ)音識(shí)別,23,10.4.1 語(yǔ)言識(shí)別的概念,語(yǔ)音識(shí)別用語(yǔ)音作為輸入,口語(yǔ)對(duì)話與語(yǔ)音信號(hào)中語(yǔ)言提取的不同: (1)上下文猜測(cè)
18、 (2)肢體語(yǔ)言傳達(dá)信息,機(jī)器翻譯用印刷文本作為輸入,能清楚地區(qū)分單個(gè)單詞和單詞串 。,fare | fairmale | mail,24,10.4.2 語(yǔ)音識(shí)別的主要過(guò)程,,,,1.語(yǔ)音信號(hào)采集 基于單片機(jī),DSP芯片 基于PC機(jī),2.語(yǔ)音信號(hào)預(yù)處理預(yù)濾波(1)抑制輸入信號(hào)各頻域分量中頻率超出采樣頻率的一半的所有分量,以防止混疊干擾。(2)抑制50Hz的電源工頻干擾。,25,,,,,,,,語(yǔ)音信號(hào)預(yù)處理 采樣
19、:對(duì)信號(hào)進(jìn)行量化,量化不可避免地會(huì)產(chǎn)生誤差。量化后的信號(hào)值與原信號(hào)值之間的差值為量化誤差,又稱為量化噪聲。 預(yù)加重:是提升高頻部分,使信號(hào)的頻譜變得平坦,保持在低頻到高頻的整個(gè)頻帶中,能用同樣的信噪比求頻譜,以便于頻譜分析或聲道參數(shù)分析。 端點(diǎn)檢測(cè):包含語(yǔ)音的一段信號(hào)中確定出語(yǔ)音的起點(diǎn)以及終點(diǎn)。,10.4.2 語(yǔ)音識(shí)別的主要過(guò)程,26,,,,,,,,過(guò)零率:信號(hào)中波形穿越零電平的次數(shù)來(lái)描述幅度變化的劇烈程度。,ZCR(i) =
20、∑|sgn(xi(n))-sgn(xi(n+1))|,10.4.2 語(yǔ)音識(shí)別的主要過(guò)程,27,,,,聲波有兩個(gè)主要特征:振幅和頻率。 線性預(yù)測(cè)編碼(LPC): 基本思想:由于語(yǔ)音樣點(diǎn)之間存在相關(guān)性,所以可以用過(guò)去p個(gè)樣點(diǎn)值來(lái)預(yù)測(cè)現(xiàn)在或未來(lái)的樣點(diǎn)值。,,10.4.2 語(yǔ)音識(shí)別的主要過(guò)程,28,,,矢量量化(vector quantization,VQ)技術(shù)是七十年代后期發(fā)展起來(lái)的一種數(shù)據(jù)壓縮和編碼技術(shù)。在標(biāo)量
21、量化中整個(gè)動(dòng)態(tài)范圍被分成若干個(gè)小區(qū)間,每個(gè)小區(qū)間有一個(gè)代表值,對(duì)于一個(gè)輸入的標(biāo)題信號(hào),量化時(shí)落入小區(qū)間的值就用這個(gè)代表值代替。,矢量量化的基本原理:將若干個(gè)標(biāo)量數(shù)據(jù)組成一個(gè)矢量在多維空間給予整體量化,從而可以在信息量損失較小的情況下壓縮數(shù)據(jù)量。,10.4.2 語(yǔ)音識(shí)別的主要過(guò)程,4.向量量化,29,5.識(shí)別。識(shí)別系統(tǒng)的輸入是從語(yǔ)音信號(hào)中提出的特征參數(shù)語(yǔ)音識(shí)別所采用的方法一般有:(1)模板匹配法。在訓(xùn)練階段,用戶將詞匯表中的每一個(gè)詞
22、依次說(shuō)一遍,將其特征矢量作為模板存入模板庫(kù)。在識(shí)別階段,將輸入語(yǔ)音的特征矢量序列依次與模板庫(kù)中的每個(gè)模板進(jìn)行相似度比較,將相似度最高者作為識(shí)別結(jié)果輸出。 (2)隨機(jī)模型法。如隱馬爾可夫模型(HMM)。用HMM的概率參數(shù)來(lái)對(duì)似然函數(shù)進(jìn)行估計(jì)與判決,從而得到識(shí)別結(jié)果。 (3)概率語(yǔ)法分析法。不同的人說(shuō)同一些語(yǔ)音時(shí),相應(yīng)的語(yǔ)譜總有一些共同的特點(diǎn)以區(qū)分于其他語(yǔ)音。將區(qū)別性特征與來(lái)自構(gòu)詞、句法、語(yǔ)義等語(yǔ)用約束相互結(jié)合,構(gòu)成由底向上或自頂向下
23、的交互作用知識(shí)系統(tǒng)。,10.4.2 語(yǔ)音識(shí)別的主要過(guò)程,30,10.4.3 隱馬爾可夫模型,隱馬爾可夫模型: 表示序列可能出現(xiàn)的一種方法。,y跟在ph后面出現(xiàn)的概率>跟在t后面出現(xiàn)的概率,例 序列:1 2 3 3 4。則概率0.9×0.5×0.4×0.6=0.108,31,,狀態(tài)隱含,觀察可測(cè),10.4.4 基于隱馬爾可夫模型的語(yǔ)音識(shí)別方法,(1)觀察符號(hào)是一幀幀的語(yǔ)音參數(shù)(2)狀態(tài)序列是具
24、體的語(yǔ)音內(nèi)容,LPC或MFCC,前進(jìn),后退,例:,32,解決三個(gè)基本問(wèn)題:,(1)輸出概率計(jì)算問(wèn)題:給定觀察序列 和HMM模型,計(jì)算輸出概率 。(2)狀態(tài)序列解碼問(wèn)題:給定觀察序列 和HMM模型,確定最優(yōu)的轉(zhuǎn)移序列。(3)模型參數(shù)估計(jì)問(wèn)題:調(diào)整模型 的參數(shù),以使
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 【人工智能_人工智能導(dǎo)論課件】第8章人工神經(jīng)網(wǎng)絡(luò)及其應(yīng)用導(dǎo)論
- 【人工智能_人工智能導(dǎo)論課件】第7章專家系統(tǒng)與機(jī)器學(xué)習(xí)導(dǎo)論
- 人工智能導(dǎo)論全套課件
- 人工智能導(dǎo)論論文
- 人工智能原理人工智能概述
- 人工智能導(dǎo)論期末復(fù)習(xí)
- 人工智能+醫(yī)藥課件
- 人工智能
- 《人工智能導(dǎo)論》教學(xué)大綱
- 人工智能,語(yǔ)言與倫理
- 人工智能導(dǎo)論2005年秋季學(xué)期
- 人工智能導(dǎo)論課程指導(dǎo)書(shū)
- 人工智能電視培訓(xùn)課件
- 淺談人工智能
- 人工智能初步
- 人工智能論文
- 人工智能復(fù)習(xí)
- 淺談人工智能
- 人工智能答案
- 人工智能報(bào)告
評(píng)論
0/150
提交評(píng)論