![](https://static.zsdocx.com/FlexPaper/FileRoot/2019-3/14/17/f5769b7f-9c8f-4be0-8837-9d027cbef36a/f5769b7f-9c8f-4be0-8837-9d027cbef36apic.jpg)
![漢語(yǔ)語(yǔ)音關(guān)鍵詞檢測(cè)中置信測(cè)度研究.pdf_第1頁(yè)](https://static.zsdocx.com/FlexPaper/FileRoot/2019-3/14/17/f5769b7f-9c8f-4be0-8837-9d027cbef36a/f5769b7f-9c8f-4be0-8837-9d027cbef36a1.gif)
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、作為人們最方便、最自然的信息傳遞方式,語(yǔ)音在人類社會(huì)中無(wú)處不在。尤其是在信息和多媒體技術(shù)迅猛發(fā)展的今天,語(yǔ)音通信網(wǎng)絡(luò)和計(jì)算機(jī)互聯(lián)網(wǎng)上的語(yǔ)音數(shù)據(jù)正以前所未有的速度增長(zhǎng)。對(duì)這些語(yǔ)音數(shù)據(jù)進(jìn)行分析和處理,并獲取人們感興趣的有用信息,具有重要的理論意義和實(shí)用價(jià)值。作為語(yǔ)音信息檢索的核心技術(shù),語(yǔ)音關(guān)鍵詞檢測(cè)(Spoken Term Detection,STD)以搜索并定位語(yǔ)音文檔中的特定詞為目的,在語(yǔ)音分析、信息檢索、數(shù)據(jù)挖掘、信息安全等領(lǐng)域有著廣
2、泛的應(yīng)用。
近年來(lái),語(yǔ)音關(guān)鍵詞檢測(cè)已經(jīng)成為語(yǔ)音處理領(lǐng)域的研究熱點(diǎn),吸引了大量學(xué)者展開廣泛而深入的研究。雖然取得了一定的進(jìn)展,但目前的檢測(cè)結(jié)果中仍不可避免地存在著大量錯(cuò)誤,這降低了關(guān)鍵詞檢測(cè)系統(tǒng)的性能。從描述檢測(cè)結(jié)果的可信程度來(lái)看,錯(cuò)誤的原因在于系統(tǒng)對(duì)真實(shí)的關(guān)鍵詞結(jié)果賦予了較低的置信測(cè)度(Confidence Measure),而對(duì)虛假的關(guān)鍵詞結(jié)果賦予了較高的置信測(cè)度。因此,有效的置信測(cè)度方法對(duì)語(yǔ)音關(guān)鍵詞檢測(cè)至關(guān)重要。然而,目前
3、的方法不僅訓(xùn)練準(zhǔn)則與評(píng)價(jià)準(zhǔn)則不一致,而且缺乏對(duì)高級(jí)語(yǔ)言學(xué)信息的有效利用;此外,面向詞表外詞的檢測(cè)仍存在召回率低的問(wèn)題,尚無(wú)刻畫詞表外詞置信測(cè)度的有效方法。本文針對(duì)以上問(wèn)題,從詞表內(nèi)詞與詞表外詞兩個(gè)方面展開研究,其主要研究?jī)?nèi)容及創(chuàng)新工作如下:
?。?)針對(duì)目前置信測(cè)度訓(xùn)練準(zhǔn)則與評(píng)價(jià)準(zhǔn)則不一致的問(wèn)題,提出了基于接受者操作特性(Receiver Operating Characteristics,ROC)曲線下面積(Area Unde
4、r ROC Curve,AUC)最大化準(zhǔn)則的置信測(cè)度。該方法利用輸入語(yǔ)音的聲學(xué)特征,以最大化AUC作為優(yōu)化目標(biāo),實(shí)現(xiàn)了一種子詞加權(quán)置信測(cè)度。同時(shí),根據(jù)漢語(yǔ)特點(diǎn),提出了音節(jié)置信測(cè)度向量的表示方法,進(jìn)而實(shí)現(xiàn)了基于AUC最大化的音節(jié)加權(quán)置信測(cè)度。與現(xiàn)有基于最小分類錯(cuò)誤準(zhǔn)則的方法相比,所提出的方法使訓(xùn)練準(zhǔn)則與評(píng)價(jià)準(zhǔn)則相一致,同時(shí)更有利于參數(shù)的訓(xùn)練,從而獲得更好的檢測(cè)性能。
?。?)針對(duì)現(xiàn)有方法缺乏對(duì)高級(jí)語(yǔ)言學(xué)信息有效利用的問(wèn)題,提出了一
5、種基于上下文背景一致度的置信測(cè)度。它利用關(guān)鍵詞候選間的關(guān)系,將背景詞的不確定性與語(yǔ)音文檔主題的影響考慮到上下文背景一致度的計(jì)算當(dāng)中,并將上下文背景一致度作為置信測(cè)度。為此,利用詞出現(xiàn)概率估計(jì)背景詞的不確定性,通過(guò)合并Lattice中交疊候選來(lái)計(jì)算詞出現(xiàn)概率。為了考慮主題的影響,提出了基于主題的上下文背景一致度自適應(yīng)方法。該方法通過(guò)直接對(duì)主題分類并使用特定主題的語(yǔ)義相似度的思想實(shí)現(xiàn)自適應(yīng)。由于加入了背景詞不確定性和主題信息等先驗(yàn)知識(shí),使上
6、下文背景一致度的計(jì)算變得更為準(zhǔn)確。實(shí)驗(yàn)表明,考慮背景詞的不確定性和基于主題的自適應(yīng)能使檢測(cè)性能有明顯提高。
?。?)針對(duì)詞表外詞檢測(cè)召回率低的問(wèn)題,提出了一種基于關(guān)鍵詞擴(kuò)展的詞表外詞檢測(cè)方法及相關(guān)置信測(cè)度計(jì)算方法。該方法將與原始關(guān)鍵詞發(fā)音相似或易混的音節(jié)序列也作為關(guān)鍵詞進(jìn)行搜索。在根據(jù)所擴(kuò)展的關(guān)鍵詞定位可能的候選之后,利用候選的后驗(yàn)概率以及所擴(kuò)展的關(guān)鍵詞與原始關(guān)鍵詞之間的不匹配程度來(lái)計(jì)算其置信測(cè)度。擴(kuò)展的關(guān)鍵詞與原始關(guān)鍵詞間的混
7、淆度由聲學(xué)模型間K-L散度來(lái)度量。為了對(duì)K-L散度值進(jìn)行準(zhǔn)確估計(jì),提出了基于上下界的K-L散度估計(jì)方法。這一策略能夠有效處理漢語(yǔ)模糊匹配中的音節(jié)插入、刪除等情況,解決了不同長(zhǎng)度音節(jié)串間不匹配度量的問(wèn)題。同時(shí),為了加快搜索關(guān)鍵詞的速度,提出了一種基于n元文法的樹狀索引。實(shí)驗(yàn)表明,所提出的基于關(guān)鍵詞擴(kuò)展的詞表外詞檢測(cè)方法能夠有效提高召回率,所提出的置信測(cè)度也能夠提高詞表外詞檢測(cè)性能。
?。?)針對(duì)詞表外詞檢測(cè)缺乏有效置信測(cè)度的問(wèn)題,
8、提出了基于候選片段間相關(guān)度的詞表外詞置信測(cè)度。通過(guò)使用狀態(tài)對(duì)齊的方法對(duì)候選片段的邊界進(jìn)行準(zhǔn)確定位,并利用基于幀似然比的方法計(jì)算初始的置信測(cè)度。在此基礎(chǔ)上,提出了兩種基于相關(guān)性的置信測(cè)度重估方法,即基于反饋機(jī)制的置信測(cè)度和基于隨機(jī)游走模型的置信測(cè)度。前者根據(jù)偽相關(guān)集合和偽無(wú)關(guān)集合對(duì)每一個(gè)候選的置信測(cè)度進(jìn)行重新計(jì)算。后者利用任意兩個(gè)候選間的相關(guān)度和隨機(jī)游走模型完成置信測(cè)度重新計(jì)算。實(shí)驗(yàn)表明,所提出的詞表外詞置信測(cè)度能夠有效提升詞表外詞的檢測(cè)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 語(yǔ)音關(guān)鍵詞檢出技術(shù)及置信度問(wèn)題研究.pdf
- 基于深度學(xué)習(xí)的漢語(yǔ)語(yǔ)音關(guān)鍵詞檢測(cè)方法研究.pdf
- 基于HMM的漢語(yǔ)語(yǔ)音關(guān)鍵詞檢測(cè)研究與實(shí)現(xiàn).pdf
- 面向新聞?wù)Z料的漢語(yǔ)語(yǔ)音關(guān)鍵詞檢測(cè)技術(shù)研究.pdf
- 漢語(yǔ)語(yǔ)音識(shí)別的關(guān)鍵詞和集外詞檢測(cè)的研究與應(yīng)用.pdf
- 蒙古語(yǔ)語(yǔ)音關(guān)鍵詞檢測(cè)技術(shù)的研究.pdf
- 語(yǔ)音識(shí)別中置信度技術(shù)的研究.pdf
- 基于語(yǔ)音關(guān)鍵詞檢測(cè)的人機(jī)交互研究.pdf
- 語(yǔ)音識(shí)別中置信度理論研究.pdf
- 語(yǔ)音關(guān)鍵詞識(shí)別技術(shù)的研究.pdf
- 廣播語(yǔ)音敏感關(guān)鍵詞識(shí)別.pdf
- 面向漢語(yǔ)語(yǔ)音關(guān)鍵詞檢出的時(shí)間集成神經(jīng)網(wǎng)絡(luò)研究.pdf
- 面向語(yǔ)音檢索的漢語(yǔ)關(guān)鍵詞識(shí)別技術(shù)研究及應(yīng)用.pdf
- 中文語(yǔ)音關(guān)鍵詞檢出技術(shù)研究.pdf
- 語(yǔ)音關(guān)鍵詞識(shí)別技術(shù)的研究及應(yīng)用.pdf
- 中等詞匯量的漢語(yǔ)連續(xù)語(yǔ)音關(guān)鍵詞識(shí)別系統(tǒng).pdf
- 連續(xù)語(yǔ)音中關(guān)鍵詞快速檢出的研究.pdf
- 關(guān)鍵詞識(shí)別中語(yǔ)音確認(rèn)技術(shù)的研究.pdf
- 基于HMM語(yǔ)音關(guān)鍵詞識(shí)別技術(shù)研究.pdf
- 基于模糊理論的語(yǔ)音關(guān)鍵詞識(shí)別.pdf
評(píng)論
0/150
提交評(píng)論