版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、隨著語音識別技術(shù)越來越廣泛的應(yīng)用,語音識別技術(shù)也受到越來越多的重視。語音識別技術(shù)在50年來取得了很大進展,識別的正確率得到了很大的提高,使得語音識別技術(shù)在教育、電子商務(wù)、電話語音撥號、各種語音門戶、語音玩具等領(lǐng)域的應(yīng)用越來越廣泛,并逐漸覆蓋各個應(yīng)用領(lǐng)域。 語音端點檢測技術(shù)是利用數(shù)字處理技術(shù)檢測出語音信號中的各種段落的起始點和終點位置,其目的就是在復(fù)雜的帶噪聲環(huán)境下的聲音信號中分辨出語音信號和非語音信號,它是語音識別中最關(guān)鍵的技術(shù)
2、之一,其性能的優(yōu)劣將直接影響到語音識別系統(tǒng)的正確率。傳統(tǒng)的基于音頻的語音識別技術(shù)是單一地關(guān)注聲音信號的研究,這種只將音頻信號作為研究對象的的最大缺點就是系統(tǒng)的噪聲魯棒性差,特別是在強噪聲環(huán)境下,這些語音系統(tǒng)的識別率會顯著地降低,使得語音識別的應(yīng)用受到很大的限制。 同時,人類的語音過程不僅僅是聲音信號的產(chǎn)生,它還伴隨著與之相關(guān)的發(fā)聲器官的視覺體現(xiàn),其中又以唇形的變化最為重要。由于語音信號的這種特殊性,語音的音頻信號和視覺信號之間必
3、然存在內(nèi)在的聯(lián)系,語音信號的聲學(xué)特征和視覺特征具有很好互補性和冗余性。因此將和語音信號相伴的語音視覺信息引入到語音端點檢測將有助于語音識別率的提高,這也正是本文最大的貢獻。 第一章是緒論部分,介紹了語音端點檢測的概念、基于音頻的傳統(tǒng)語音端點檢測的弊病以及引入語音視覺特征的意義。 第二章闡述了基于聽覺特征的語音端點檢測的過程以及語音端點檢測的常用技術(shù),并給出了一種時頻和頻域方差的語音端點檢測算法,它能檢測出語音端點的4種狀
4、態(tài):無語音狀態(tài)、過渡狀態(tài)、語音狀態(tài)和結(jié)束狀態(tài),并給出了這4種狀態(tài)之間的轉(zhuǎn)換關(guān)系。 第三章介紹了引入語音視覺特征原因,并對人臉檢測的算法作了一個概要性的描述,給出了現(xiàn)在常用的幾種方法:特征組分析法、ASM法以及線性子空間法??紤]了2個對視覺信息有影響的主要的因素:光線和人的頭部的運動,并給出了相應(yīng)的解決辦法。給出了嘴唇定位和提取的過程;ROI定位、PCA、LDA提取,通過這些方法能從圖像中檢測到人臉,并定位到嘴唇信息。最后介紹了一
5、種將前面的特征法和線性子空間法結(jié)合在一起的分段人臉特征檢測算法——分和法,并給出了詳細的描述。 第四章提出了基于視覺特征的3種語音端點檢測技術(shù):基于圖像的比較方法(將圖片中的嘴唇部分提取出來和無語音狀態(tài)下的嘴唇圖像進行比較,如果該圖像和無語音狀態(tài)的圖像之間的不同像素點數(shù)在一個門限值以上,則認為這2幅圖片不一樣,即說明該圖像是處于語音狀態(tài))、基于FAP的方法(檢測出嘴唇的FAP點,判斷這些點與MPEG-4中定義的FAPSilenc
6、e點是否相同,若相同,則表示是非語音狀態(tài),否則表示為語音狀態(tài)和FAP點距離的判斷進行判斷是否處于語音狀態(tài))以及基于唇動函數(shù)的方法(給出一個內(nèi)外嘴唇函數(shù),通過這個函數(shù)描述,判斷嘴唇是否處于運動狀態(tài),若是則為語音狀態(tài),否則為無語音狀態(tài)),并給出了這些方法的具體實現(xiàn)。 第五提出了基于音頻和視頻融合的端點檢測技術(shù),討論了基于音頻和視頻在不同噪聲狀態(tài)下各種技術(shù)的適用情況:當(dāng)語音信號很強時,則以音頻識別為主,輔助視覺檢測;當(dāng)噪聲很強時,以視
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 噪聲環(huán)境下基于特征的語音端點檢測研究.pdf
- 基于長時特征的語音端點檢測方法研究.pdf
- 語音端點檢測的方法
- 基于統(tǒng)計模型的語音端點檢測.pdf
- 基于倒譜特征和濁音特性的語音端點檢測方法的研究.pdf
- 語音端點檢測方法研究.pdf
- 語音信號特征參數(shù)及端點檢測.pdf
- 基于HMM的噪聲語音端點檢測方法研究.pdf
- 語音端點檢測技術(shù)研究.pdf
- 語音通信中語音端點檢測技術(shù)的研究.pdf
- 基于小波變換的汽車語音特征指令逼近與端點檢測方法.pdf
- 基于高斯有色噪聲環(huán)境下的語音端點檢測.pdf
- 語音信號端點檢測方法的研究.pdf
- 基于信息熵的語音端點檢測改進算法研究.pdf
- 帶噪語音端點檢測方法的研究.pdf
- 漢語連續(xù)語音端點檢測技術(shù)的研究.pdf
- 基于譜熵的語音端點檢測算法的研究.pdf
- HHT在語音增強和語音端點檢測中的應(yīng)用研究.pdf
- 基于經(jīng)驗?zāi)B(tài)分解的語音端點檢測算法研究.pdf
- 基于卷積神經(jīng)網(wǎng)絡(luò)的語音端點檢測方法研究.pdf
評論
0/150
提交評論