自動語音識別技術(shù)是一種將人的語音轉(zhuǎn)換為文本的技術(shù)。語音識別是一個多學(xué)科交叉的領(lǐng)域,它與聲學(xué)、語音學(xué)、語言學(xué)、數(shù)字信號處理理論、信息論、計算機科學(xué)等眾多學(xué)科緊密相連。由于語音信號的多樣性和復(fù)雜性,語音識別系統(tǒng)只能在一定的限制條件下獲得滿意的性能,或者說只能應(yīng)用于某些特定的場合。
自動語音識別(Automatic Speech Recognition 簡稱“ASR“),技術(shù)的目標(biāo)是讓計算機能夠“聽寫”出不同人所說出的連續(xù)語音,也就是俗稱的“語音聽寫機”,是實現(xiàn)“聲音”到“文字”轉(zhuǎn)換的技術(shù)。 自動語音識別也稱為語音識別(Speech Recognition)或計算機語音識別(Computer Speech Recognition)。
語音識別是研究如何采用數(shù)字信號處理技術(shù)自動提取以及決定語音信號中最基本、最有意義的信息的一門新興的邊緣學(xué)科。它是語音信號處理學(xué)科的一個分支。
語音識別系統(tǒng)的性能大致取決于以下4類因素:
1. 識別詞匯表的大小和語音的復(fù)雜性;
2. 語音信號的質(zhì)量;
3. 單個說話人還是多說話人;
4. 硬件。
分類
自動語音識別通常有以下幾種分類方法:
(1)按系統(tǒng)的用戶情況分:特定人和非特定人識別系統(tǒng);
(2)按系統(tǒng)詞匯量分:小詞匯量、中詞匯量和大詞匯量系統(tǒng);
(3)按語音的輸入方式分:孤立詞、連接詞、連續(xù)語音系統(tǒng)等;
(4)按輸入語音的發(fā)音方式分:朗讀式、口語(自然發(fā)音)式;
(5)按輸入語音的方言背景情況分:普通話、方言背景普通話、方言語音識別系統(tǒng);
(6)按輸入語音的情感狀態(tài)分;中性語音、情感語音識別系統(tǒng)。
基本原理
訓(xùn)練(Training):預(yù)先分析出語音特征參數(shù),制作語音模板,并存放在語音參數(shù)庫中。
識別(Recognition):待識語音經(jīng)過與訓(xùn)練時相同的分析,得到語音參數(shù)。將它與庫中的參考模板一一比較,并采用判決的方法找出最接近語音特征的模板,得出識別結(jié)果。
失真測度(Distortion Measures):在進(jìn)行比較時要有個標(biāo)準(zhǔn),這就是計量語音特征參數(shù)矢量之間的“失真測度”。
主要識別框架:基于模式匹配的動態(tài)時間規(guī)整法(DTW)和基于統(tǒng)計模型的隱馬爾可夫模型法(HMM)。