基于深層神經(jīng)網(wǎng)絡(luò)的多目標(biāo)學(xué)習(xí)和融合的語(yǔ)音增強(qiáng)研究.pdf_第1頁(yè)
已閱讀1頁(yè),還剩116頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、近幾年,隨著智能終端機(jī)功能的增強(qiáng)和云端計(jì)算能力的提高,人和計(jì)算機(jī)之間的交流方式發(fā)生了很大的變化。而語(yǔ)音作為人類最重要、最常用和最方便的信息交換方式,自然成為不可或缺的媒介。在日常生活進(jìn)行語(yǔ)音通信或者在軍事通信中進(jìn)行作戰(zhàn)指揮時(shí),常常伴隨各種噪聲干擾,這些噪聲干擾不僅影響語(yǔ)音的質(zhì)量和可懂度,同時(shí)也給后續(xù)語(yǔ)音識(shí)別和語(yǔ)音端點(diǎn)檢測(cè)等處理帶來困難。語(yǔ)音增強(qiáng)的主要目標(biāo)就是從帶噪語(yǔ)音中提取干凈的原始語(yǔ)音,提高語(yǔ)音質(zhì)量和可懂度。
  傳統(tǒng)單聲道語(yǔ)音

2、增強(qiáng)算法基本都是無監(jiān)督語(yǔ)音增強(qiáng)算法,通常會(huì)對(duì)語(yǔ)音信號(hào)和噪聲信息的概率分布做一定假設(shè),對(duì)平穩(wěn)噪聲處理比較好,但對(duì)非平穩(wěn)噪聲抑制能力較弱。近些年來,隨著深度學(xué)習(xí)技術(shù)在語(yǔ)音領(lǐng)域取得重大突破,給語(yǔ)音增強(qiáng)提供一種有監(jiān)督學(xué)習(xí)的解決方案和有望取得突破性進(jìn)展的可能性。研究發(fā)現(xiàn),基于深層神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)的語(yǔ)音增強(qiáng)方法取得比傳統(tǒng)語(yǔ)音增強(qiáng)算法很大的性能提升。本文圍繞用回歸DNN來擬合語(yǔ)音和噪聲間的復(fù)雜非線性關(guān)系,著力

3、解決低信噪比語(yǔ)音可懂度不高、噪聲非平穩(wěn)問題,然后通過多目標(biāo)學(xué)習(xí)和融合技術(shù),設(shè)計(jì)適用于實(shí)時(shí)應(yīng)用的緊湊和低延時(shí)模型,最后在最大似然估計(jì)的框架下對(duì)基于時(shí)頻掩蔽的DNN進(jìn)行參數(shù)優(yōu)化。
  首先,基于已有的DNN語(yǔ)音增強(qiáng)算法框架,本文研究不同的輸入信息對(duì)系統(tǒng)性能的影響,解決在低信噪比情況下語(yǔ)音可懂度不高的問題。通過設(shè)計(jì)不同的輸入特征,比如對(duì)數(shù)功率譜(Log power Spectra,LPS)和幅度譜(Amplitude Spectra,A

4、S),研究回歸深層神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)過程,基于不同特征之間的互補(bǔ)性,在輸入層采取特征拼接,輸出層對(duì)不同學(xué)習(xí)目標(biāo)進(jìn)行后處理,來同時(shí)提高語(yǔ)音質(zhì)量和可懂度。
  其次,針對(duì)寬帶(16k Hz)語(yǔ)音數(shù)據(jù)上噪聲不匹配的問題,本文提出了一種改進(jìn)的動(dòng)態(tài)噪聲估計(jì)方法,利用雙絕對(duì)門限、平滑策略以及與靜態(tài)噪聲融合,使得估計(jì)的全頻帶噪聲更準(zhǔn)確,并且使用噪聲的子帶特征和表征語(yǔ)音存在概率的掩蔽值(Ideal Ratio Mask,IRM)進(jìn)行聯(lián)合感知訓(xùn)練,在減

5、少模型復(fù)雜度的同時(shí)可以提高模型對(duì)不可見噪聲的泛化能力。
  再者,本文提出了一個(gè)基于DNN的多目標(biāo)學(xué)習(xí)和融合語(yǔ)音增強(qiáng)框架,包括多目標(biāo)學(xué)習(xí)和多目標(biāo)融合兩個(gè)階段,能夠在較小的模型復(fù)雜度和較低的延時(shí)情況下達(dá)到比較好的性能,更適用于實(shí)時(shí)語(yǔ)音應(yīng)用。在多目標(biāo)學(xué)習(xí)階段,設(shè)計(jì)一個(gè)DNN模型來學(xué)習(xí)輔助信息,包括LPS特征、梅爾頻率倒譜系數(shù)(Mel frequency Cepstral Coefficient,MFCC)和Gammatone頻率倒譜系

6、數(shù)(Gammatone Frequency Cepstral Coefficient,GFCC)以及每組特征對(duì)應(yīng)的干凈語(yǔ)音、動(dòng)態(tài)噪聲和IRM。在多目標(biāo)融合階段,用上個(gè)階段學(xué)習(xí)到的輔助信息與原始帶噪信號(hào)一起作為網(wǎng)絡(luò)輸入,在輸出層同時(shí)預(yù)測(cè)LPS、MFCC和GFCC對(duì)應(yīng)的干凈語(yǔ)音和IRM信息。最后對(duì)這兩個(gè)階段DNN預(yù)測(cè)的干凈語(yǔ)音做后處理融合。由于在DNN學(xué)習(xí)過程中引入了多個(gè)目標(biāo),利用多目標(biāo)的自適應(yīng)學(xué)習(xí),兩個(gè)階段的DNN模型可以設(shè)計(jì)的很緊湊,降

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論