時(shí)間:2022-11-27 07:57:00
導(dǎo)言:作為寫作愛好者,不可錯(cuò)過為您精心挑選的10篇語音識(shí)別系統(tǒng),它們將為您的寫作提供全新的視角,我們衷心期待您的閱讀,并希望這些內(nèi)容能為您提供靈感和參考。
近年來國內(nèi)教育信息化趨勢(shì)更加明顯,英語教學(xué)活動(dòng)建立信息化平臺(tái)是師生所需,改變了早期英語課堂模式的不足之處。語音識(shí)別是計(jì)算機(jī)翻譯軟件不可缺少的一部分,如圖1,主要針對(duì)不同語言進(jìn)行識(shí)別處理,幫助學(xué)生快速地理解英語知識(shí)內(nèi)涵。語音識(shí)別技術(shù)主要包括:特征提取技術(shù)、模式匹配技術(shù)、模型訓(xùn)練技術(shù)等三大技術(shù),也是系統(tǒng)設(shè)計(jì)需考慮的重點(diǎn)。
1)特征提取技術(shù)。一般來說,語音識(shí)別系統(tǒng)輔助功能涉及到收錄、處理、傳遞等三個(gè)環(huán)節(jié),這也是語音識(shí)別系統(tǒng)設(shè)計(jì)的關(guān)鍵所在。計(jì)算機(jī)語言與自然語言之間存在極大的差異性,如何準(zhǔn)確識(shí)別兩種語言的差異性,這是翻譯軟件識(shí)別時(shí)必須解決的問題。特征提取技術(shù)是語音識(shí)別系統(tǒng)的基本構(gòu)成,主要負(fù)責(zé)對(duì)英語語言特征進(jìn)行提取,向翻譯器及時(shí)提供準(zhǔn)確的語言信號(hào),提高計(jì)算機(jī)翻譯工作的準(zhǔn)確系數(shù)。
2)模式匹配技術(shù)。語音識(shí)別系統(tǒng)要匹配對(duì)應(yīng)的功能模塊,以輔助師生在短時(shí)間內(nèi)翻譯出語言含義,避免人工翻譯語言失誤帶來的不便。模式匹配技術(shù)采用智能識(shí)別器,由翻譯器錄入語音之后自主化識(shí)別、分析,減小了人工翻譯語句的難度。例如,計(jì)算機(jī)軟件建立匹配模型,按照英語字、詞、句等結(jié)構(gòu)形式,自動(dòng)選擇相配套的翻譯模式,執(zhí)行程序命令即可獲得最終的語言結(jié)果,給予學(xué)生語音識(shí)別方面的幫助。
3)模型訓(xùn)練技術(shù)。設(shè)計(jì)語音識(shí)別系統(tǒng)是為了實(shí)現(xiàn)教育信息化,幫助教師解決英語課堂教學(xué)中遇到的翻譯難題,加深學(xué)生們對(duì)英語知識(shí)的理解能力。語音識(shí)別結(jié)束之后,翻譯器會(huì)自動(dòng)執(zhí)行模擬訓(xùn)練操作,為學(xué)生創(chuàng)建虛擬化的語音訓(xùn)練平臺(tái),這也是軟件識(shí)別系統(tǒng)比較實(shí)用的功能。模擬訓(xùn)練技術(shù)采用人機(jī)一體化設(shè)計(jì)思想,把翻譯器、語音識(shí)別器等組合起來執(zhí)行訓(xùn)練方式,快速地識(shí)別、判斷英語發(fā)聲水平,指導(dǎo)學(xué)生調(diào)整語音方式。
2英語翻譯器語音識(shí)別系統(tǒng)設(shè)計(jì)及應(yīng)用
英語翻譯器是現(xiàn)代化教學(xué)必備的操作工具,教師與學(xué)生借助翻譯器功能可準(zhǔn)確地理解英語含義,這對(duì)語音識(shí)別系統(tǒng)設(shè)計(jì)提出了更多要求。筆者認(rèn)為,設(shè)計(jì)語音識(shí)別系統(tǒng)要考慮翻譯器具體的工作流程,事先編排一套符合翻譯軟件工作的方案,如圖2,從而提高人機(jī)語言轉(zhuǎn)換速率。語音識(shí)別系統(tǒng)設(shè)計(jì)及應(yīng)用情況:
1)識(shí)別模塊。語音識(shí)別方法主要是模式匹配法,根據(jù)不同翻譯要求進(jìn)行匹配處理,實(shí)現(xiàn)英語翻譯的精準(zhǔn)性。一是在訓(xùn)練階段,用戶將詞匯表中的每一詞依次說一遍,并且將其特征矢量作為模板存入模板庫;二是在識(shí)別階段,將輸入語音的特征矢量依次與模板庫中的每個(gè)模板進(jìn)行相似度比較,將相似度最高者作為識(shí)別結(jié)果輸出。
2)前端模塊。前端處理是指在特征提取之前,先對(duì)原始語音進(jìn)行處理,這是預(yù)處理操作的主要作用。語音識(shí)別系統(tǒng)常受到外界干擾而降低了翻譯的準(zhǔn)確性,設(shè)計(jì)前段處理模塊可消除部分噪聲和不同說話人帶來的影響,使處理后的信號(hào)更能反映語音的本質(zhì)特征。例如,比較常用的前端處理有端點(diǎn)檢測(cè)和語音增強(qiáng)。
3)聲學(xué)模塊。語音識(shí)別系統(tǒng)的模型通常由聲學(xué)模型和語言模型兩部分組成,分別對(duì)應(yīng)于語音到音節(jié)概率的計(jì)算和音節(jié)到字概率的計(jì)算。聲學(xué)特征的提取與選擇是語音識(shí)別的一個(gè)重要環(huán)節(jié),這一步驟直接關(guān)系到翻譯器的工作效能,對(duì)英語語音識(shí)別與學(xué)習(xí)有很大的影響。因此,聲學(xué)模塊要注重人性化設(shè)計(jì),語音設(shè)定盡可能符合自然語言特點(diǎn)。
4)搜索模塊。英語語音識(shí)別中的搜索,就是尋找一個(gè)詞模型序列以描述輸入語音信號(hào),從而得到詞解碼序列。本次所設(shè)計(jì)的搜索模塊中,其前端是一個(gè)語音識(shí)別器,識(shí)別產(chǎn)生的N-best候選或詞候選網(wǎng)格,由語法分析器進(jìn)行分析獲取語義信息,再由對(duì)話管理器確定應(yīng)答信息,由語音合成器輸出。由于目前的系統(tǒng)往往詞匯量有限,也可以用提取關(guān)鍵詞的方法來獲取語義信息。
5)執(zhí)行模塊。實(shí)際應(yīng)用中,語言識(shí)別系統(tǒng)憑借執(zhí)行模塊完成操作,對(duì)英語語言識(shí)別方式進(jìn)行優(yōu)化擇取,以最佳狀態(tài)完成英語翻譯工作。目前,就英語教學(xué)中使用情況,聽寫及、對(duì)話系統(tǒng)等是語音識(shí)別執(zhí)行的兩種方式,充分展現(xiàn)了翻譯器在語言轉(zhuǎn)換方面的應(yīng)用功能。(1)聽寫機(jī)。大詞匯量、非特定人、連續(xù)語音識(shí)別系統(tǒng)通常稱為聽寫機(jī)。其架構(gòu)就是建立在前述聲學(xué)模型和語言模型基礎(chǔ)上的HMM拓?fù)浣Y(jié)構(gòu)。訓(xùn)練時(shí)對(duì)每個(gè)基元用前向后向算法獲得模型參數(shù),識(shí)別時(shí),將基元串接成詞,詞間加上靜音模型并引入語言模型作為詞間轉(zhuǎn)移概率,形成循環(huán)結(jié)構(gòu),用Viterbi算法進(jìn)行解碼。(2)對(duì)話系統(tǒng)。用于實(shí)現(xiàn)人機(jī)口語對(duì)話的系統(tǒng)稱為對(duì)話系統(tǒng),英語翻譯器中完成了人機(jī)對(duì)話、語言轉(zhuǎn)換等工作,全面提升了翻譯器操控的性能系數(shù)。受目前技術(shù)所限,對(duì)話系統(tǒng)往往是面向一個(gè)狹窄領(lǐng)域、詞匯量有限的系統(tǒng),其題材有旅游查詢、訂票、數(shù)據(jù)庫檢索等,隨著語音數(shù)據(jù)庫資源的優(yōu)化配置,對(duì)話系統(tǒng)功能將全面升級(jí)。
3翻譯器使用注意事項(xiàng)
語音識(shí)別系統(tǒng)就是讓機(jī)器通過識(shí)別和理解過程,把語音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的高科技。隨著高校教學(xué)信息化建設(shè)時(shí)期到來,計(jì)算機(jī)軟件輔助教學(xué)活動(dòng)是一種先進(jìn)的模式,徹底改變了傳統(tǒng)人工教學(xué)模式的不足。翻譯軟件采用數(shù)字化元器件為硬件平臺(tái),配合遠(yuǎn)程互聯(lián)網(wǎng)建立多元化傳輸路徑,滿足了英語翻譯數(shù)據(jù)處理與傳輸?shù)膽?yīng)用要求。但是,未來英語教學(xué)內(nèi)容越來越復(fù)雜,翻譯器語音識(shí)別系統(tǒng)承載的數(shù)據(jù)范圍更廣,學(xué)校必須實(shí)施更新翻譯軟件產(chǎn)品,才能進(jìn)一步提升英語智能化翻譯水平。
中圖分類號(hào):TP399 文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1006-4311(2012)04-0126-020引言
隨著計(jì)算機(jī)技術(shù)的飛速發(fā)展,各種各樣的應(yīng)用層出不窮,其中使用語音與計(jì)算機(jī)程序進(jìn)行交互成為了最近熱門的研究方向。語音作為人類與計(jì)算機(jī)之間無形的連接方式,可以使人們方便、快捷地控制和使用計(jì)算機(jī)。語音識(shí)別技術(shù)是能夠讓原來非智能的計(jì)算設(shè)備理解人類思想的高科技技術(shù),融合了信號(hào)處理、人工智能以及自動(dòng)化等多學(xué)科、多領(lǐng)域的研究成果,是目前實(shí)現(xiàn)人工智慧的主要途徑之一。
根據(jù)不同的分類標(biāo)準(zhǔn),語音識(shí)別可分為不同的種類,例如依據(jù)識(shí)別對(duì)象的不同,可分為特定人語音識(shí)別及非特定人語音識(shí)別;又根據(jù)人類的講話方式可分為孤立詞識(shí)別、連接詞識(shí)別以及連續(xù)語音識(shí)別。不同的識(shí)別系統(tǒng)雖然在語音識(shí)別過程中步驟相似,但根據(jù)不同系統(tǒng)的需求及特點(diǎn)其實(shí)現(xiàn)方式及具體細(xì)節(jié)是不同的[1]。
嵌入式技術(shù)的迅猛進(jìn)步,使得語音識(shí)別技術(shù)的應(yīng)用更加廣泛,不再局限于實(shí)驗(yàn)室以及大型場(chǎng)合;其已經(jīng)被嵌入各種移動(dòng)設(shè)備,為人們對(duì)移動(dòng)設(shè)備的操作方式提供了一種嶄新途徑和使用體驗(yàn)。本文就針對(duì)移動(dòng)設(shè)備的特點(diǎn),設(shè)計(jì)了一種面向非特定人的孤立詞語音識(shí)別系統(tǒng)。
1語音識(shí)別的工作原理
原始的自然語音信號(hào)中不僅含有人體自身的聲音信號(hào),同樣也包含了大量的雜音、噪聲等混雜在一起的隨機(jī)干擾信號(hào),尤其作為移動(dòng)、嵌入式設(shè)備被使用者隨身攜帶使用,會(huì)有更多的環(huán)境噪聲信號(hào)。針對(duì)大量噪聲的數(shù)據(jù)計(jì)算以及嵌入式設(shè)備有限的計(jì)算資源,為保證系統(tǒng)的對(duì)自然語言的正確識(shí)別率,并且有效減少處理原始語音信號(hào)的大量數(shù)據(jù)密集計(jì)算,有必要研究語音信號(hào)的預(yù)處理技術(shù),以期高效提取語音特征參數(shù),并選取合適的壓縮算法進(jìn)行語音數(shù)據(jù)壓縮,之后再進(jìn)行語音的模式匹配[2]。
如圖1所示,人本身的語音信號(hào)從語音錄入設(shè)備進(jìn)入后,將進(jìn)行預(yù)處理、端點(diǎn)檢測(cè)、特征提取,轉(zhuǎn)換為可以對(duì)比的信號(hào)參數(shù),然后將特征參數(shù)通過選取的特征匹配方法與參考樣例庫中的模板樣例進(jìn)行語言匹配,選擇符合度最大的語言樣例進(jìn)行相應(yīng)處理,得出識(shí)別結(jié)果。
2系統(tǒng)硬件設(shè)計(jì)
系統(tǒng)的硬件結(jié)構(gòu)示意圖如圖2所示。
系統(tǒng)的處理核心采用了韓國三星公司的一款基于ARM 920T內(nèi)核的S3C2440微處理器;此款處理器中的CMOS宏單元和存儲(chǔ)單元采用了0.18um電子工藝,內(nèi)部總線采用Advanced Microcontroller Bus Architecture(AMBA)新型總線結(jié)構(gòu),具備出色的全靜態(tài)設(shè)計(jì),利用了多項(xiàng)低功耗技術(shù),系統(tǒng)架構(gòu)精簡(jiǎn),特別為價(jià)格和功耗敏感的應(yīng)用而精心打造。除此之外,它特別為各種外設(shè)準(zhǔn)備了豐富的中斷處理資源,包括總計(jì)共有60個(gè)中斷源(其中包括5個(gè)定時(shí)器硬中斷,9個(gè)串口中斷,24個(gè)外部中斷,1個(gè)看門狗定時(shí)器,4個(gè)DMA,2個(gè)ADC,1個(gè)LCD,1個(gè)電池故障,1個(gè)IIC,2個(gè)SPI,1個(gè)SDI,2個(gè)USB,1個(gè)NAND FLASH口,2個(gè)視頻口和1個(gè)AC97音頻口),這些中斷既可以使用電平/邊沿觸發(fā)模式進(jìn)行外部中斷的觸發(fā),也可以使用軟件編程的方式改變邊沿/電平觸發(fā)極性,能夠?yàn)榫o急中斷請(qǐng)求提供快速中斷(FIQ)服務(wù)[3]。
系統(tǒng)工作時(shí),人的語音信號(hào)經(jīng)過MIC輸入,并通過濾波、去噪等操作后,在S3C2440上執(zhí)行語音特征提取、語音模式匹配算法,最終輸出結(jié)果;系統(tǒng)中的USB接口可以方便系統(tǒng)外擴(kuò)各種標(biāo)準(zhǔn)USB外設(shè),以便使用語音識(shí)別結(jié)果進(jìn)行各種設(shè)備控制。
3系統(tǒng)軟件設(shè)計(jì)
3.1 Linux內(nèi)核移植移植Linux內(nèi)核一般分為幾個(gè)固定的步驟,目前較為流行快速開發(fā)方法通常先在內(nèi)核的處理器架構(gòu)目錄下,選擇與目標(biāo)開發(fā)板硬件結(jié)構(gòu)最接近的并且各種配置較為完善的開發(fā)板目錄作為移植模板。接著針對(duì)本開發(fā)板與目標(biāo)開發(fā)板的硬件具體差別,進(jìn)行對(duì)應(yīng)的修改或使用前人的移植補(bǔ)丁進(jìn)行升級(jí)。針對(duì)本開發(fā)板,我們使用了穩(wěn)定的Linux-2.6.15內(nèi)核進(jìn)行移植,考慮到本系統(tǒng)的具體硬件配置,最后選擇了SMDK2440開發(fā)板模板作為移植的目標(biāo)開發(fā)板模板。在編譯和配置內(nèi)核前,建議使用menuconfig或其它配置工具對(duì)內(nèi)核進(jìn)行適當(dāng)?shù)牟眉簦€可以進(jìn)一步編寫配置腳本。嵌入式Linux內(nèi)核的裁減類似于PC上Linux內(nèi)核的裁減,主要的工作是根據(jù)硬件和系統(tǒng)需求增添需要支持的模塊,并除去無用的功能模塊,以使Linux內(nèi)核與目標(biāo)硬件系統(tǒng)緊密相依,但要注意嵌入式Linux內(nèi)核的特征是小、精、有效。內(nèi)核的編譯則通常是通過修改根目錄以及其它子目錄下的Makefile,以及在預(yù)編譯前設(shè)置編譯參數(shù)值時(shí)進(jìn)行選定,或是使用編譯工具[4]。
最后,使用make工具生成U-boot可以識(shí)別的uImage引導(dǎo)程序鏡像文件。uImage鏡像文件通過U-Boot引導(dǎo)程序從FLASH中取出并解壓縮,裝入內(nèi)存后,Linux內(nèi)核便取得系統(tǒng)控制權(quán)。
Linux內(nèi)核移植的整個(gè)過程如圖3所示。
3.2 系統(tǒng)軟件設(shè)計(jì)整個(gè)系統(tǒng)軟件結(jié)構(gòu)如圖4所示。面向終端用戶的軟件形勢(shì)分為兩種:web插件和普通的軟件界面;web插件可以使用在瀏覽器中,方面用戶控制網(wǎng)頁瀏覽。下面是命令解析層Command layer,負(fù)責(zé)解釋兩種界面發(fā)送的命令,調(diào)用相應(yīng)的程序接口并返回執(zhí)行后的結(jié)果。功能模塊Function modules主要封裝軟件API,負(fù)責(zé)提供各種常用的功能服務(wù)。控制模塊Control modules負(fù)責(zé)管理和控制語音識(shí)別引擎,建立語音樣例庫以及調(diào)整語音設(shè)備引擎的內(nèi)部參數(shù),將來還可以加入新的語音模式匹配算法。再下面一層是統(tǒng)一APIs層,主要對(duì)核心語音識(shí)別引擎進(jìn)行簡(jiǎn)單的API封裝,同時(shí)預(yù)留了將來要擴(kuò)展的功能接口,以便后續(xù)的功能升級(jí)和代碼維護(hù);最下面的就是核心語音識(shí)別引擎,主要提供模式匹配算法以及對(duì)底層系統(tǒng)級(jí)的控制功能。
3.3 語音識(shí)別算法本語音識(shí)別系統(tǒng)的識(shí)別任務(wù)主要為針對(duì)設(shè)備持有者的小詞匯量孤立詞的語音識(shí)別,功能較為簡(jiǎn)單,需要使用者進(jìn)行一定量的訓(xùn)練后,系統(tǒng)對(duì)應(yīng)建立語音樣例庫,然后針對(duì)每次的聲音進(jìn)行模式匹配即可,所以算法的重點(diǎn)在于模式匹配算法。綜合計(jì)算性能需要、存儲(chǔ)資源消耗以及價(jià)格成本考慮,目前流行的DHMM語言識(shí)別模型對(duì)本系統(tǒng)較為合適。DHMM模型是一種隨機(jī)統(tǒng)計(jì)過程,通過大量的模板訓(xùn)練過程提取語音特征,可滿足語音實(shí)時(shí)變化且識(shí)別實(shí)時(shí)性要求較高的應(yīng)用場(chǎng)合。
本系統(tǒng)采用了當(dāng)前性價(jià)比較高的Viterbi算法實(shí)現(xiàn)DHMM模型。Viterbi算法可以由如下公式描述[5]:
?啄t(i)=■p(s1,s2,…,st=si,O1,O2,…,Ot|?姿)
其中,?啄t(i)為被識(shí)別語音序列t時(shí)刻的最大概率密度;其中t時(shí)刻前經(jīng)過的語音狀態(tài)序列為s1,s2,...st,且t時(shí)刻狀態(tài)為si,對(duì)應(yīng)輸出觀察符序列為O1,O2,...Ot。
4結(jié)束語
人類與計(jì)算機(jī)之間的交流的方式經(jīng)過了按鍵輸入、鍵盤輸入、手寫輸入以及觸摸輸入的階段,但這已經(jīng)不能滿足人們對(duì)于便捷、快速輸入的更高需求,而語音識(shí)別技術(shù)的發(fā)展和應(yīng)用,使得人們看到了計(jì)算機(jī)輸入的未來趨勢(shì)。相信隨著電子技術(shù)和信號(hào)處理技術(shù)的進(jìn)一步提高,語音輸入將會(huì)廣泛應(yīng)用于各種計(jì)算機(jī)以及嵌入式設(shè)備中。
參考文獻(xiàn):
[1]馬莉,黨幼云.特定人孤立詞語音識(shí)別系統(tǒng)的仿真與分析[J].西安工程科技學(xué)院學(xué)報(bào),2007,(03).
[2]邢銘生,朱浩,王宏斌.語音識(shí)別技術(shù)綜述[J].科協(xié)論壇(下半月),2010,(03).
關(guān)鍵詞 語音識(shí)別;中文識(shí)別;人工分詞;控制系統(tǒng)
【中圖分類號(hào)】TP311 【文獻(xiàn)標(biāo)識(shí)碼】A
【論文編號(hào)】1671-7384(2014)02-0069-03
引 言
計(jì)算機(jī)如今如此普及,計(jì)算機(jī)發(fā)展速度完全超乎想象。但目前為止,真正具備與人交流功能的電腦還不存在。有這樣一個(gè)圖靈測(cè)試——讓測(cè)試員與被測(cè)試者和一臺(tái)機(jī)器在隔開的情況下,通過一些裝置向被測(cè)試者隨意提問。問過一些問題后,如果測(cè)試人不能確認(rèn)被測(cè)試者30%的答復(fù)哪個(gè)是人、哪個(gè)是機(jī)器的回答,那么這臺(tái)機(jī)器就通過了測(cè)試。可惜的是,如今情況下最好的成績(jī)是由俄羅斯專家設(shè)計(jì)的“葉甫根尼”電腦程序,也只是達(dá)到了29.2%。
語音,是人與人交流的一種手段,也是人類交流和交換信息中最便捷的工具。退而求其次,要做到通過圖靈測(cè)試,不如先讓電腦通過語音作為引信來幫人類做事情。為了充分闡述語音識(shí)別這套系統(tǒng)的原理,本文將小范圍重現(xiàn)語音識(shí)別原理。
對(duì)于語音識(shí)別之后,讓計(jì)算機(jī)去理解人的意思,不可缺少的就是將文字信息轉(zhuǎn)化為計(jì)算機(jī)能理解的內(nèi)容。把計(jì)算機(jī)比作一個(gè)人手中拿著一本象形文字對(duì)照手冊(cè),身處上文說的圖靈測(cè)試的房子中。而另一人則在房間外向此房間發(fā)送象形文字問題。房間內(nèi)的人只需按照對(duì)照手冊(cè),返回手冊(cè)上的象形文字答案即可。畢竟只需要讓計(jì)算機(jī)懂得我們的意思,并非讓計(jì)算機(jī)來幫我們?nèi)ニ伎肌R虼耍灰o予足夠多的“稿紙、筆”以及足夠大的“詞典”即可。
這次我們對(duì)系統(tǒng)的研究使用的是C語言,由于并沒有采用面向?qū)ο蠡恼Z言來編程,大部分程序使用的編程并沒有向“類”里面填充“方法”的概念。這套系統(tǒng)硬件開發(fā)、硬件編程采用的是51單片機(jī)來實(shí)現(xiàn),后期的處理則是在上位機(jī)通過鉤掛系統(tǒng)鉤子讀取內(nèi)存來實(shí)現(xiàn)。下面,我們將一步一步講述構(gòu)建這個(gè)系統(tǒng)的過程。
平臺(tái)構(gòu)建
如今,國外已經(jīng)有很多成品語音識(shí)別系統(tǒng),中文的語音識(shí)別控制系統(tǒng)也有很多的企業(yè)、教育科研機(jī)構(gòu)在做相關(guān)的項(xiàng)目。不過這些研究卻依然停留在初級(jí)階段。因?yàn)橹形氖鞘澜缟献铍y學(xué)的語言,人來學(xué)習(xí)尚且如此,更何況人來教給機(jī)器去識(shí)別。
雖然如此,做語音識(shí)別首先要有一個(gè)平臺(tái)來去搭建中文語音識(shí)別系統(tǒng)。第一步要做的便是將聲音訊號(hào)轉(zhuǎn)化為電訊號(hào)。這里采用一個(gè)高阻抗麥克風(fēng),作為音源進(jìn)行聲電轉(zhuǎn)化。通常的麥克風(fēng)是三個(gè)端子輸出,分別是兩個(gè)信號(hào)源和一個(gè)接地端。大部分的麥克風(fēng)兩個(gè)端讀入的是相同信號(hào),少部分高品質(zhì)的則讀入的是差分信號(hào)。
麥克風(fēng)的輸入是毫伏級(jí)別,類似空氣聲、干擾波都會(huì)使得輸入的信號(hào)有噪波。因此,輸入的兩個(gè)端分別進(jìn)行旁路電容濾波等操作,去除雜波。無源麥克風(fēng)的輸入電壓過低,之后要將信號(hào)接入放大器,放大后的信號(hào)才能使得后續(xù)的操作中,模擬—數(shù)字信號(hào)轉(zhuǎn)換器獲得足夠被感應(yīng)的信號(hào)強(qiáng)度。
理論上講,音頻信號(hào)可以看作周期信號(hào),按照傅立葉級(jí)數(shù)定理可知,任何周期函數(shù)都可以用正弦函數(shù)和余弦函數(shù)構(gòu)成的無窮級(jí)數(shù)來表示。因此,通過將音頻信號(hào)進(jìn)行傅立葉級(jí)數(shù)展開,去除雜波頻段的波形即可得到優(yōu)質(zhì)波形。
而實(shí)踐中,通過硬件操作步驟較為煩瑣,軟件分析需要時(shí)間較長(zhǎng),出于經(jīng)濟(jì)等方面因素考慮,本系統(tǒng)不采用傅立葉變換來實(shí)現(xiàn)識(shí)別音頻特性,而采用比較法取波形相似度等方式進(jìn)行識(shí)別。
語音識(shí)別
上文中的信號(hào)經(jīng)過模擬—數(shù)字轉(zhuǎn)換器轉(zhuǎn)換成為了數(shù)字信號(hào),接入處理器的IO接口線程中,此時(shí),讀入的信號(hào)會(huì)通過地址總線和IO端口讀入。因此在硬件上,我們使用中斷程序來進(jìn)行信號(hào)預(yù)處理。
軟件方面中斷程序部分,僅需要將讀入的IO數(shù)據(jù)以數(shù)組形式存放入內(nèi)存即可。
聲音有三要素:音高、響度、音色。讀入的信號(hào)即每個(gè)時(shí)間點(diǎn)的聲音感受器震動(dòng)位置,我們可以通過電流接入到壓片陶瓷上來還原聲音,而如果我們要去分析音頻則需要對(duì)照三要素下手。
響度即聲波數(shù)組中的數(shù)值高低,為了讓聲波數(shù)組中的響度和預(yù)存的響度相同,我們通過統(tǒng)計(jì)整段中有效波形能量數(shù)值和與預(yù)存數(shù)組的能量數(shù)值做比例處理,使得響度和預(yù)存數(shù)組相近。
音高即聲音的頻率,頻率的定義是:?jiǎn)挝粫r(shí)間內(nèi)完成振動(dòng)的次數(shù),是描述振動(dòng)物體往復(fù)運(yùn)動(dòng)頻繁程度的量。通過聲波數(shù)組尋找相鄰兩點(diǎn)是否為相反數(shù),即可尋找到過0點(diǎn)次數(shù)得到頻率。這時(shí),時(shí)間段的頻率即可求出,間接可得到整段聲音的頻率。
我們發(fā)現(xiàn),對(duì)音高進(jìn)行頻率化處理,同樣也需要對(duì)預(yù)存數(shù)組進(jìn)行頻率化處理。因此,盡管我們可以去頻率化處理提高識(shí)別精度,但相比對(duì)音頻直接做響度匹配,所謂黑盒操作更易于分析和匹配。
漢語是由聲母和韻母組成的,通過五聲韻母和聲母匹配,即可收集有限個(gè)聲源。用這些聲源和預(yù)處理的聲音進(jìn)行匹配,即可得出每個(gè)字的讀音。
上述的程序段只是匹配所需要的函數(shù),在外部需要循環(huán)來賦給數(shù)組對(duì)應(yīng)指針位置才能實(shí)現(xiàn),在對(duì)比中,如何確定開頭是一個(gè)難點(diǎn)。因此需要對(duì)音頻數(shù)據(jù)的開頭做識(shí)別。在本系統(tǒng)中,采用讀取5個(gè)相鄰數(shù)據(jù),如果連續(xù)的峰值高于30且持續(xù)了超過25毫秒以上,則判定這個(gè)時(shí)間點(diǎn)為數(shù)據(jù)的開始。
在系統(tǒng)中,雖然我們采用了去除抖動(dòng)的算法,但聲音音響處理過后,也會(huì)丟失一些精度,此處的算法若提高精度,則需要在前期處理做根據(jù)香農(nóng)采樣定理計(jì)算低通信道的最高大碼元傳輸速率,進(jìn)而做精確的采樣以及還原,同時(shí)濾波采用更先進(jìn)的算法來實(shí)現(xiàn),這里只實(shí)現(xiàn)采樣而不做精細(xì)討論。
人工分詞
中文,全世界有近20億的人在使用。然而,中文的語法是世界上無章可循的語法之一。古人云:“句讀之不知,惑之不解”,想要用中文交流,就必須知道如何斷句。這樣,才能正常地和人交流,才能清晰地理解對(duì)方的意思。
欲斷句,先斷詞。讓計(jì)算機(jī)來執(zhí)行控制,而計(jì)算機(jī)處理的卻是整個(gè)詞組。前面步驟已經(jīng)講述了如何將語音識(shí)別成一個(gè)個(gè)的單字,識(shí)別成一個(gè)個(gè)句子。但是中文并不像英文,說“我是一個(gè)學(xué)生”這句話的時(shí)候不會(huì)像“Iam a student”這樣中間有空格從而判斷詞組。這就需要我們對(duì)句子做一個(gè)特殊的處理——人工分詞。
以“我是一個(gè)學(xué)生”為例,人類來理解這句話,他的意思就是“‘我’的職業(yè)屬性是學(xué)生”。從這個(gè)例子可以看出,提取“是”這個(gè)動(dòng)詞為關(guān)鍵字,便可以將前后轉(zhuǎn)變?yōu)橘x值表達(dá)式的形式“我->職業(yè)=學(xué)生”。
優(yōu)先提取出一句話的動(dòng)詞,是分詞處理的關(guān)鍵。但并非每個(gè)動(dòng)詞都可以這樣來操作,例如,“他鞠躬下臺(tái)”,很明顯“鞠躬”是個(gè)動(dòng)詞,“下臺(tái)”也是一個(gè)動(dòng)詞;如果按照上文中所述,“他->鞠躬=下臺(tái)”就會(huì)出問題。為了處理這個(gè)問題,我們引入現(xiàn)代漢語中及物動(dòng)詞和不及物動(dòng)詞的概念。將“鞠躬”、“下臺(tái)”這種不及物動(dòng)詞和“打”、“吃”這樣的及物動(dòng)詞分開。
當(dāng)然,這需要字典來處理,借助現(xiàn)代科技的發(fā)展,一本電子版的現(xiàn)代漢語詞典就可以解決這個(gè)問題,通過詞庫來查詢每個(gè)詞語的意思,從而抽離出動(dòng)詞。我們只需要設(shè)計(jì)不及物動(dòng)詞代表動(dòng)作即可,這樣就可以將信息存儲(chǔ)成“他->動(dòng)作=鞠躬&下臺(tái)”。
若是英文,如此做便可以了。但上文說過,中文語法是世界上無章可循的語法之一。英文中設(shè)置了動(dòng)詞字典基本上就處理了大部分問題。可中文中會(huì)出現(xiàn)如下句子:“今天的比賽在大學(xué)生活動(dòng)中心召開。”
人工模擬電腦來理解,副詞可以修飾形容詞、修飾動(dòng)詞,用副詞來修飾試探:比賽可以“不比賽”不能“很比賽”,因此它不是形容詞,而是動(dòng)詞,“我比賽你”這句話不通,因此是不及物動(dòng)詞;“活動(dòng)”和“召開”也是同理,是不及物動(dòng)詞。因此這句話要理解成“今天->動(dòng)作=比賽&活動(dòng)&召開”。
但不能說“今天->動(dòng)作=比賽&活動(dòng)&召開”,很顯然這句話真正的意思是“比賽->地點(diǎn)=大學(xué)生活動(dòng)中心”。出現(xiàn)這個(gè)問題,核心原因就是計(jì)算機(jī)沒有把“大學(xué)生活動(dòng)中心”當(dāng)作一個(gè)詞,任何一本字典都不會(huì)去收錄“大學(xué)生活動(dòng)中心”這個(gè)詞。
在中文分詞中, 中科天璣出品了一套中文分詞系統(tǒng)架構(gòu),加載頭文件"ICTCLAS50.h"可以用頭文件定義的命令#pragma comment讀取它所提供的數(shù)據(jù)庫(lib,"ICTCLAS50.lib")
執(zhí)行過該程序段后,會(huì)將分詞結(jié)果以test.txt的形式保存在硬盤中。
結(jié) 語
做完人工分詞,基本上也就實(shí)現(xiàn)了讀取用戶所要達(dá)到的目的。這套系統(tǒng)貫穿底層到軟件層,如果有可能甚至需要設(shè)計(jì)到云端。雖然局部的測(cè)試沒有出現(xiàn)嚴(yán)重的錯(cuò)誤,但由于時(shí)間原因,并沒有做綜合測(cè)試。
其中的一些理論和實(shí)踐銜接的地方還存在著不足,一些算法也存在著改進(jìn)的空間,但這些問題終將在以后得到解決。也希望這套系統(tǒng)能在最后的實(shí)踐和發(fā)展中真正用于生活,從而提供更好的生活體驗(yàn),為人們體驗(yàn)生活、享受人生做出貢獻(xiàn)。
基金項(xiàng)目: 本文系北京市自然科學(xué)基金項(xiàng)目(4132009);北京市屬高等學(xué)校高層次人才引進(jìn)與培養(yǎng)計(jì)劃項(xiàng)目(CIT&TCD201304120);北京市教委科技計(jì)劃項(xiàng)目(KM201211232008)的研究成果。
參考文獻(xiàn)
何嘉. 基于遺傳算法優(yōu)化的中文分詞研究[D].電子科技大學(xué),2012.
趙培. 中文語音識(shí)別結(jié)果文本分類的研究與實(shí)現(xiàn)[D].大連理工大學(xué),2008.
曹衛(wèi)峰. 中文分詞關(guān)鍵技術(shù)研究[D].南京理工大學(xué),2009.
龍樹全,趙正文,唐華. 中文分詞算法概述[J]. 電腦知識(shí)與技術(shù),2009,10:2605-2607.
剛. 圖靈測(cè)試:哲學(xué)爭(zhēng)論及歷史地位[J]. 科學(xué)文化評(píng)論,2011,06:42-57.
譚超. 學(xué)習(xí)型中文語音識(shí)別系統(tǒng)研究及實(shí)現(xiàn)[J]. 電腦開發(fā)與應(yīng)用,2012,04:35-37.
胡寶潔,趙忠文,曾巒,張永繼. 圖靈機(jī)和圖靈測(cè)試[J]. 電腦知識(shí)與技術(shù),2006,23:132-133.
陳淑芳. 基于51單片機(jī)的教學(xué)實(shí)驗(yàn)系統(tǒng)的設(shè)計(jì)與開發(fā)[D].中國海洋大學(xué),2011.
張文國. 中文語音識(shí)別技術(shù)的發(fā)展現(xiàn)狀與展望[J].上海微型計(jì)算機(jī),1998,35:46.
中圖分類號(hào) TP393文獻(xiàn)標(biāo)識(shí)碼 A文章編號(hào) 10002537(2014)03006306
雖然自動(dòng)語音識(shí)別(ASR)系統(tǒng)的研究已投入了大量的人員和資金,但是它還不能夠像電話一樣,作為日常生活的一部分完整地融入到人們的生活當(dāng)中.其中一個(gè)最主要的問題就是自動(dòng)語音識(shí)別系統(tǒng)在噪聲和混響環(huán)境下,特別是二者混合環(huán)境下的識(shí)別性能過于低下[1].在大多數(shù)情況下,為獲得可接受的識(shí)別性能,只能依賴于麥克風(fēng)陣列的使用,即通過使用大量按照特定位置放置的麥克風(fēng)來獲取語音輸入和空間信息.大量的ASR研究,使用麥克風(fēng)陣列得到方向增益,以改善噪聲與混響環(huán)境中獲取信號(hào)的質(zhì)量;采用模式識(shí)別技術(shù)中的譜減法來消除噪聲和處理語音訓(xùn)練集與測(cè)試集不匹配問題[2].
在日常應(yīng)用中,普通用戶既不可能隨身攜帶麥克風(fēng)陣列也不可能精確地放置它們.目前,日常使用的麥克風(fēng)是與雙通道耳機(jī)相對(duì)應(yīng)的,它能得到雙通道語音信號(hào),卻不能得到復(fù)雜的空間信息.如果依然采用傳統(tǒng)的信號(hào)增強(qiáng)方法(例如廣義旁瓣抵消技術(shù))來處理雙通道信號(hào),以作為語音識(shí)別系統(tǒng)的預(yù)處理端,那么噪聲的消除反而會(huì)帶來無法接受的語音失真.
譜減法[3]作為另一種消除噪聲的技術(shù),可以不依賴麥克風(fēng)陣列獲取輸入信號(hào),但是卻存在三大缺點(diǎn):(1)噪聲估計(jì)誤差過大導(dǎo)致噪聲消除時(shí)語音失真;(2)增強(qiáng)后的語音中含有明顯的“音樂噪聲”;(3)混響未被處理.
為解決上述問題,本文基于雙聲道語音信號(hào)簡(jiǎn)單的空間特性,綜合使用改進(jìn)的廣義旁瓣抵消空間增強(qiáng)技術(shù)和改進(jìn)的譜減法技術(shù)作為語音識(shí)別系統(tǒng)的噪聲消除和信號(hào)放大的預(yù)處理端,并基于HTK開發(fā)工具設(shè)計(jì)一個(gè)識(shí)別性能優(yōu)異的語音識(shí)別系統(tǒng).
1 系統(tǒng)描述
圖1 系統(tǒng)結(jié)構(gòu)
Fig.1 System structure
圖1為本系統(tǒng)的整體構(gòu)架.它由空間增強(qiáng)、譜減法模塊和自動(dòng)語音識(shí)別模塊3個(gè)主要部分構(gòu)成.
1.1 空間增強(qiáng)模塊
因?yàn)榭臻g線索是語音識(shí)別的主要部分和遠(yuǎn)場(chǎng)麥克風(fēng)語音識(shí)別的組織焦點(diǎn),在該ASR系統(tǒng)中,采用PASCAL “CHiME”[4]組織提供的雙通道含噪語音信號(hào),利用該信號(hào)簡(jiǎn)單的空間特性可以得到表現(xiàn)優(yōu)異的噪聲估計(jì).
有許多經(jīng)典的使用麥克風(fēng)陣列的方法來放大目標(biāo)信號(hào),例如通過延遲求和方式的波束形成,自適應(yīng)噪聲消除(ANC)以及獨(dú)立成分分析(ICA).它們使用麥克風(fēng)陣列得到方向增益,以改善在噪聲與混響環(huán)境中獲取信號(hào)的質(zhì)量.
1.2 噪聲消除模塊
通常的ASR系統(tǒng)在處理含噪信號(hào)時(shí)性能大幅度下降,因此,噪音消除是該系統(tǒng)中常見且必須的組成部分.當(dāng)前主流的噪聲消除技術(shù)可以分為3大部分.(1)使用時(shí)域?yàn)V波技術(shù),例如維納濾波和自適應(yīng)濾波;(2)嘗試還原原始語音譜的譜還原技術(shù),例如譜減法[5]和參數(shù)減法;(3)為增強(qiáng)語音結(jié)構(gòu),有許多基于語音模型的噪聲消除技術(shù),例如基于諧波模型的噪聲消除.然而,使用這些技術(shù)來獲得噪聲衰減和信噪比的改善,往往會(huì)造成語音失真.通常,越干凈的噪聲消除會(huì)導(dǎo)致越嚴(yán)重的語音失真,因此,研究設(shè)計(jì)一個(gè)針對(duì)復(fù)雜聲學(xué)環(huán)境的ASR系統(tǒng),在語音失真和噪聲消除之間尋找一個(gè)平衡點(diǎn),是非常重要的工作.
1.3 識(shí)別系統(tǒng)自適應(yīng)
通過一些經(jīng)典的空間濾波和噪聲消除技術(shù)來處理麥克風(fēng)陣列在真實(shí)環(huán)境中獲取的聲音信號(hào),較直接采集含噪聲音,具有更好的聽感知質(zhì)量.但是無論系統(tǒng)設(shè)計(jì)多么完備,獲得的加強(qiáng)聲音中依然會(huì)有噪聲殘留和語音失真的問題存在,它們能被正常人輕易的接受和識(shí)別,但是目前的ASR系統(tǒng)卻不具備這樣的能力.當(dāng)前幾乎所有的ASR系統(tǒng)都采用模式識(shí)別技術(shù),當(dāng)測(cè)試數(shù)據(jù)集接近訓(xùn)練數(shù)據(jù)集時(shí),能夠得到非常高的識(shí)別精確度.但是噪聲殘留和語音失真會(huì)導(dǎo)致測(cè)試數(shù)據(jù)集完全不同于“干凈”的訓(xùn)練數(shù)據(jù)集,訓(xùn)練和測(cè)試不匹配的問題會(huì)直接導(dǎo)致ASR系統(tǒng)識(shí)別率的降低.
為解決這些問題,前人提出許多的方法,例如模型再訓(xùn)練和自適應(yīng),特征變換和歸一化[67],建立環(huán)境模型和模型特征一體化技術(shù)將之使用在自動(dòng)語音識(shí)別模塊上,能起到良好的效果.
綜合考慮到對(duì)上面所述三部分的分析,所有的模塊都應(yīng)該整合為一體,只有通過良好的語音信號(hào)預(yù)處理和完善的識(shí)別系統(tǒng)自適應(yīng),才能構(gòu)架一個(gè)更優(yōu)異性能的ASR系統(tǒng).
2 系統(tǒng)設(shè)計(jì)
本文提出一個(gè)簡(jiǎn)潔而具有高魯棒性的針對(duì)CHiME問題的ASR系統(tǒng).首先,依據(jù)雙通道信號(hào)的空間信息增強(qiáng)它們,然后采用改進(jìn)的譜減法獲得增強(qiáng)信號(hào),作為ASR系統(tǒng)的輸入,最終得到識(shí)別結(jié)果和關(guān)鍵詞準(zhǔn)確率.
2.1 改進(jìn)的空間增強(qiáng)
由于存在混響問題,使用傳統(tǒng)方法得到雙通道信號(hào)的空間信息的有效內(nèi)容非常困難.另外,如果采用傳統(tǒng)的信號(hào)增強(qiáng)方法,例如基于廣義旁瓣相消(GSC) 的波束成型,作為ASR系統(tǒng)的前端,那么噪音消除會(huì)帶來語音失真[8],會(huì)極大地降低ASR系統(tǒng)的識(shí)別性能.語音失真是由GSC多路輸入抵消器(MC)的窄帶自適應(yīng)濾波器導(dǎo)致的,它既無法良好地消除噪聲,同時(shí)還消耗昂貴的計(jì)算資源.
圖2 空間增強(qiáng)
Fig.2 Spatial enhancement
本ASR系統(tǒng)的前端,利用雙通道語音信號(hào)的優(yōu)勢(shì),移除了典型GSC里的MC模型,使得在空間濾波的同時(shí)盡量避免語音失真和降低計(jì)算負(fù)擔(dān)(圖2).該模塊的主要任務(wù)是提取參考噪聲,而不再進(jìn)行噪聲消除.
4 結(jié)論
本文針對(duì)語音識(shí)別這一交叉性強(qiáng)的學(xué)科,打破傳統(tǒng)的語音識(shí)別系統(tǒng)局限于利用有限的技術(shù),不斷挖掘技術(shù)潛力,來達(dá)到提高性能的研究模式,提出了一種全新的綜合性構(gòu)架,并取得了實(shí)質(zhì)性的成效;考慮到人類聽覺的生理情況,結(jié)合空間增強(qiáng)層得出的無目標(biāo)語言的參考噪聲,對(duì)譜減法模塊做了積極的改變.將去除噪聲操作從空間增強(qiáng)層移動(dòng)到了效率更高的譜減法層,將噪聲估計(jì)移動(dòng)到空間增強(qiáng)層,使得整個(gè)系統(tǒng)的分工更加明確,以降低耦合,提高魯棒性;使用了倒譜均值歸一化實(shí)現(xiàn)標(biāo)準(zhǔn)39維梅爾倒頻譜系數(shù),為語音識(shí)別模塊加入基于最大后驗(yàn)概率的自適應(yīng)訓(xùn)練,提高了訓(xùn)練效率和系統(tǒng)整體性能.
參考文獻(xiàn):
[1] 宋志章,馬 麗,劉省非,等.混合語音識(shí)別模型的設(shè)計(jì)與仿真研究[J].計(jì)算機(jī)仿真, 2012,29 (5):152155.
[2] HIRSCH H G, PEARCE D. The aurora experimental framework for the performance evaluation of speech recognition systems under noisy conditions[C]//ASR2000Automatic Speech Recognition: Challenges for the new Millenium ISCA Tutorial and Research Workshop (ITRW). Paris, France, 2000,9:1820.
[3] 張 滿,陶 亮,周 健.基于實(shí)值離散Cabor變換的譜減法語音增強(qiáng)[J].計(jì)算機(jī)工程與應(yīng)用, 2012,48(29):109113.
[4] BARKER J, VINCENT E, MA N, et al. The PASCAL CHiME speech separation and recognition challenge[J]. Computer Speech Language, 2013,27(3):621633.
[5] BOLL S. Suppression of acoustic noise in speech using spectral subtraction[J]. Speech and Signal Processing, IEEE Transactions, 1979,27(2):113120.
[6] HERMANSKY H, MORGAN N. RASTA processing of speech[J]. Speech and Audio Processing, IEEE Transactions, 1994,2(4):578589.
[7] CHEN C P, BILMES J, ELLIS D P W. Speech feature smoothing for robust ASR[C]//2005 IEEE International Conference on Acoustics, Speech, and Signal Processing: Proceedings: March 1823, 2005.
[8] BRANDSTEIN, MICHAEL, DARREN WARD. Microphone arrays: signal processing techniques and applications[M]. New York: Springer, 1996:2075.
隨著科技的發(fā)展,人們的操作模式從最初的按鍵操作到觸屏操作,再到現(xiàn)在的語音操作,其越來越便捷,越來越人性化。語音操作的基礎(chǔ)就是語音識(shí)別技術(shù)(Automatic Speech Recognition),簡(jiǎn)稱ASR,其目標(biāo)就將人類語言轉(zhuǎn)換為計(jì)算機(jī)可讀的輸入。語音識(shí)別作為一門交叉學(xué)科,從產(chǎn)生到現(xiàn)在已取得了顯著的進(jìn)步,現(xiàn)在已逐步走向市場(chǎng),并且人們預(yù)計(jì),語音識(shí)別技術(shù)在未來10年將會(huì)應(yīng)用于人們生活的各個(gè)領(lǐng)域。
根據(jù)發(fā)音人的不同,語音識(shí)別技術(shù)可分為特定人語音識(shí)別和非特定人語音識(shí)別兩類,前者只能識(shí)別一個(gè)或幾個(gè)人的語音,而后者則能被任何人使用。本文設(shè)計(jì)的多鼉壩鏌羰侗鶼低塵褪粲詵翹囟ㄈ擻鏌羰侗鷲庖煥啵其以嵌入式微處理器STM32F407為核心,采用ICRoute公司的LD3320語音識(shí)別芯片,并配以存儲(chǔ)空間為16M字節(jié)的W25Q128芯片,能夠?qū)崿F(xiàn)2000個(gè)場(chǎng)景共計(jì)識(shí)別句100000條的語音識(shí)別操作。
1 系統(tǒng)整體結(jié)構(gòu)
如圖1所示,整個(gè)系統(tǒng)主要是由STM32F407處理器、LD3320語音識(shí)別芯片以及W25Q128Flash芯片構(gòu)成。其中STM32F407處理器用于切換場(chǎng)景和場(chǎng)景關(guān)鍵詞更改;LD3320語音識(shí)別芯片用于語音識(shí)別,W25Q128Flash芯片用于存識(shí)別句,兩種都是通過SPI總線與處理器相連。整套系統(tǒng)與外部其他系統(tǒng)則是通過串口進(jìn)行通信。
2 系統(tǒng)硬件介紹及存儲(chǔ)空間設(shè)計(jì)
2.1 系統(tǒng)硬件介紹
2.1.1 STM32F407ZGT6處理器
STM32F407ZGT6采用Cortex_M4內(nèi)核,集成FPU和DSP指令,具有192KB SRAM、1024KB FLASH、3個(gè)SPI、6個(gè)串口等。基于其強(qiáng)大的配置,所以本系統(tǒng)的處理器選用該芯片。
2.1.2 LD3320語音識(shí)別模塊
LD3320語音識(shí)別模塊是ICRoute公司的一款產(chǎn)品,其特有的快速而穩(wěn)定的優(yōu)化算法,能夠完成非特定人語音識(shí)別,識(shí)別準(zhǔn)確率高達(dá)95%。該模塊每次最多可以設(shè)置50條候選識(shí)別詞或識(shí)別句,只要單個(gè)詞或句長(zhǎng)度不超過10個(gè)漢字和79字節(jié)的拼音串,同時(shí)我們可以對(duì)識(shí)別內(nèi)容動(dòng)態(tài)編輯。模塊的通訊方式有并行和串行兩種,根據(jù)需求的不同可以選擇不同的通訊方式。除了語音識(shí)別這一功能之外,模塊還支持MP3播放功能,只要MCU將MP3數(shù)據(jù)依次送入芯片,就能夠從芯片的PIN引腳輸出聲音。
2.1.3 W25Q128Flash芯片
W25Q128是華邦公司推出的大容量SPIFLASH產(chǎn)品,容量為128Mbit,即16M。該芯片將16M空間分為256塊,每塊64KB,每塊又分為16個(gè)扇區(qū),每個(gè)扇區(qū)4KB。由于W25Q128的最小擦除單位為一扇區(qū),也就是說每次擦除4KB。
2.2 存儲(chǔ)空間設(shè)計(jì)
由于W25Q128芯片每次擦除的單位為4KB,而每句識(shí)別語句至少有80字節(jié),一個(gè)場(chǎng)景有50句識(shí)別語句,所以一個(gè)扇區(qū)用于一個(gè)場(chǎng)景是不夠的,因此我們將兩個(gè)扇區(qū)劃為一個(gè)場(chǎng)景;圖2是單個(gè)場(chǎng)景數(shù)據(jù)存儲(chǔ)關(guān)系圖,圖中每個(gè)場(chǎng)景占8192字節(jié),每條識(shí)別語句占100個(gè)字節(jié),其中第一個(gè)字節(jié)為識(shí)別語句編號(hào),范圍為1-50;單個(gè)場(chǎng)景的第一個(gè)扇區(qū)可以存儲(chǔ)40條識(shí)別語句,第二個(gè)扇區(qū)可以存儲(chǔ)10條識(shí)別語句,其中第4000B-4096B和5096B-8190B保留,不存儲(chǔ)數(shù)據(jù),整個(gè)場(chǎng)景的最后兩個(gè)字節(jié)用于存儲(chǔ)場(chǎng)景編號(hào),范圍為1-2000。W25Q128共有4096個(gè)扇區(qū),理論上可以劃分2048個(gè)場(chǎng)景,但是我們只劃分2000個(gè)場(chǎng)景,也就是4000個(gè)扇區(qū);還剩下96個(gè)扇區(qū),剩下的第1-50扇區(qū)用于存放每個(gè)場(chǎng)景的相關(guān)信息,計(jì)算可以得到每個(gè)場(chǎng)景有1KB的存儲(chǔ)空間,然后我們將最后一個(gè)扇區(qū)的最后兩個(gè)字節(jié)存儲(chǔ)現(xiàn)在所在場(chǎng)景編號(hào),剩下的空間保留。
3 系統(tǒng)軟件設(shè)計(jì)
3.1 通訊協(xié)議格式設(shè)置
整個(gè)系統(tǒng)主要具有場(chǎng)景切換和場(chǎng)景識(shí)別語句存取功能,表1是部分對(duì)應(yīng)協(xié)議格式。
3.2 初始化函數(shù)及操作函數(shù)介紹
STM32處理器與其他各個(gè)模塊建立通信連接,除了連接好對(duì)應(yīng)IO口后,還需要對(duì)各個(gè)IO進(jìn)行初始化,這樣才能進(jìn)行數(shù)據(jù)的收發(fā),以下是主函數(shù)中相關(guān)初始化函數(shù):
NVIC_PriorityGroupConfig(NVIC_PriorityGroup_2);//首先設(shè)置系統(tǒng)中斷優(yōu)先級(jí)分組
delay_init(168); //初始化延時(shí)函數(shù)
LED_Init();//指示燈初始化
KEY_Init();//按鍵初始化
IWDOG_Init();//看門狗初始化
USART1_Init(9600);//初始化串口1
W25QXX_Init();//W25Q128初始化
LD3320_Init();//LD3320初始化
while(W25QXX_ReadID()!=W25Q128) //檢測(cè)是否存在W25Q128
{
LED0=!LED0; //如果檢測(cè)不到W25Q128指示燈1會(huì)不停閃爍
中圖分類號(hào):TN912.34 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9599 (2012) 11-0000-02
隨著人們對(duì)人機(jī)交流技術(shù)的要求越來越高,語音識(shí)別技術(shù)應(yīng)運(yùn)而生。語音識(shí)別是將語音信號(hào)轉(zhuǎn)換成相應(yīng)文本的高技術(shù),是一種重要的人機(jī)交互技術(shù)[1]。在近二十年,越來越多高水平的研究機(jī)構(gòu)和企業(yè)加入到語音識(shí)別的研究領(lǐng)域,并開始向市場(chǎng)上提品。其中具有代表性的產(chǎn)品有微軟的Whisper系統(tǒng),Google的Word Search系統(tǒng),蘋果的Siri系統(tǒng)等。
語音識(shí)別最重要的性能指標(biāo)就是識(shí)別率,而識(shí)別率十分依賴特征參數(shù)的訓(xùn)練和識(shí)別模型。常用的模式匹配和模型訓(xùn)練技術(shù)主要有動(dòng)態(tài)時(shí)間歸整算法和隱馬爾可夫算法。文中就這兩種算法特點(diǎn)進(jìn)行了分析和改進(jìn),對(duì)基于改進(jìn)后的算法建立的語音識(shí)別系統(tǒng)進(jìn)行了性能評(píng)估和對(duì)比。
一、語音識(shí)別算法
(一)動(dòng)態(tài)時(shí)間歸整算法
發(fā)音具有隨機(jī)性,同一個(gè)人在不同時(shí)間,不同場(chǎng)合對(duì)同一個(gè)字的發(fā)音長(zhǎng)度都不是完全一樣的。在語音識(shí)別的模版匹配中,這些長(zhǎng)度不一的發(fā)音將降低系統(tǒng)的識(shí)別率。為了解決這一問題,我們引入動(dòng)態(tài)時(shí)間歸整算法(Dynamic Time Warping,DTW)。在語音識(shí)別中,DTW算法是較早出現(xiàn),較為經(jīng)典的算法,它是基于動(dòng)態(tài)規(guī)劃(DP)的[2]。
提取參考語音信號(hào)的特征參數(shù)存入特征模板庫建立參考模板,提取待識(shí)別語音號(hào)的特征參數(shù)建立測(cè)試模板。DTW算法就是計(jì)算參考模板和測(cè)試模板各幀矢量之間的距離之和,總距離越小說明相似度越高,最后選取最小的總距離作為匹配結(jié)果。
這種識(shí)別算法雖然較為簡(jiǎn)單、有效,但是計(jì)算量大,存儲(chǔ)空間占用多,響應(yīng)時(shí)間長(zhǎng)。因此,文中對(duì)該算法進(jìn)行改進(jìn),以避免以上缺點(diǎn)。
改進(jìn)后的DTW算法將歸整函數(shù)限制在一個(gè)平行四邊形中(其中兩條邊的斜率為1/2,另外兩條邊的斜率為2)。在計(jì)算總距離時(shí)只需計(jì)算平行四邊形之內(nèi)各交點(diǎn)的匹配距離和累積距離,這樣減少了計(jì)算量,提高了系統(tǒng)的反應(yīng)速度,節(jié)省了存儲(chǔ)空間。
(二)隱馬爾可夫算法
隱馬爾可夫模型是在馬爾可夫鏈基礎(chǔ)上發(fā)展起來的一種語音信號(hào)統(tǒng)計(jì)模型,自從用來描述語音信號(hào)后,該模型迅速發(fā)展,使得HMM理論逐漸成為語音研究中的熱點(diǎn),語音識(shí)別的主流技術(shù)。
隱馬爾可夫模型HMM是一個(gè)雙重隨機(jī)過程,一重是可直接觀測(cè)的馬爾可夫鏈,用于描述狀態(tài)的轉(zhuǎn)移;另一重是隱含在觀察序列中的隨機(jī)過程,用于描述狀態(tài)和觀察值之間的統(tǒng)計(jì)對(duì)應(yīng)關(guān)系。
將HMM用于語音識(shí)別系統(tǒng)前,必須解決三個(gè)基本問題[3]:
1.模型評(píng)估
已知一個(gè)觀察序列和一個(gè)HMM模型,如何計(jì)算由此模型產(chǎn)生此觀察符號(hào)序列的輸出概率。
2.最優(yōu)狀態(tài)序列搜索
已知一個(gè)觀察序列和一個(gè)HMM模型,如何確定一個(gè)最佳狀態(tài)序列,使之產(chǎn)生的觀察序列的概率最大。
3.模型訓(xùn)練
已知一個(gè)觀察序列和一個(gè)HMM模型,如何根據(jù)觀察序列來確定模型的參數(shù)。
針對(duì)以上三個(gè)問題,可分別用前向-后向算法,Viterbi算法和Baum-Welch算法改進(jìn),改進(jìn)后的HMM算法較傳統(tǒng)算法在識(shí)別率方面有了明顯的提高。
(三)算法比較
基于模版匹配技術(shù)的DTW算法和基于隨機(jī)過程理論的HMM算法是比較有代表性的孤立詞識(shí)別算法。DTW算法應(yīng)用動(dòng)態(tài)規(guī)劃的方法解決了語音信號(hào)特征參數(shù)序列時(shí)間對(duì)準(zhǔn)問題,克服了語速的差異。DTW算法適用于訓(xùn)練樣本較少的情況下,訓(xùn)練過程簡(jiǎn)單,識(shí)別過程較復(fù)雜,多用于特定人孤立詞語音識(shí)別系統(tǒng)。
HMM算法HMM運(yùn)用狀態(tài)序列描述觀測(cè)向量的時(shí)間邏輯,通過多變量混合高斯分布表現(xiàn)觀測(cè)向量序列的空間分布[4]。為了獲得高識(shí)別率,HMM算法需要大量的訓(xùn)練樣本和存儲(chǔ)量,訓(xùn)練過程要耗費(fèi)較多時(shí)間,識(shí)別過程較簡(jiǎn)單,多用于連續(xù)大詞匯量語音識(shí)別系統(tǒng)。
二、系統(tǒng)設(shè)計(jì)實(shí)現(xiàn)
語音識(shí)別系統(tǒng)由預(yù)處理、特征提取、模型庫和模式匹配等四個(gè)基本單元構(gòu)成。系統(tǒng)的基本結(jié)構(gòu)如圖1所示:
(一)預(yù)處理
通過話筒將語音信號(hào)變成電信號(hào)輸入到語音識(shí)別系統(tǒng)中。首先對(duì)信號(hào)進(jìn)行一系列的預(yù)處理,包括采樣、量化、加窗、端點(diǎn)檢測(cè)、預(yù)加重等。
采樣和量化就是將離散信號(hào)分別在時(shí)間上和幅度上轉(zhuǎn)化成離散形式。為了濾除低頻干擾,提升信號(hào)高頻部分,對(duì)信號(hào)進(jìn)行預(yù)加重處理。由于系統(tǒng)對(duì)信號(hào)的處理都是以短時(shí)為前提的,這就要將信號(hào)分割成許多語音段,即對(duì)語音信號(hào)分幀、加窗處理。原始語音信號(hào)往往包含無音段和有音段,端點(diǎn)檢測(cè)就是運(yùn)用數(shù)字處理技術(shù)來判斷各語音段的起點(diǎn)和終點(diǎn),從而找到有用的語音成分。文中使用基于短時(shí)能量和短時(shí)平均過零率的檢測(cè)方法判定語音信號(hào)的起始點(diǎn)和終止點(diǎn),即雙門限比較法。
(二)提取特征參數(shù)
經(jīng)過預(yù)處理的語音信號(hào)中并不是所有信息都是有用的,這就需要將語音信號(hào)經(jīng)過一次變換,去掉冗余部分,提取代表語音本質(zhì)的特征參數(shù)。文中采用近年來運(yùn)用比較廣泛的Mel頻率倒譜參數(shù),先將頻譜轉(zhuǎn)變?yōu)槊罓栴l標(biāo)的非線性頻譜,接著再轉(zhuǎn)換到倒譜域上[6]。MFCC參數(shù)充分考慮了人耳的聽覺特性,有很高的穩(wěn)健性和抗噪性能。
市場(chǎng)變化提出新需求
搬遷至新物流中心
神田業(yè)務(wù)支持公司成立于1974年,當(dāng)時(shí)與長(zhǎng)崎屋合資,主要負(fù)責(zé)服裝配送。該公司在日本最早引進(jìn)了大型托盤輸送機(jī),曾一時(shí)成為業(yè)界熱議的話題。2002年,3家分公司合并后統(tǒng)一命名為神田業(yè)務(wù)支持公司。
公司現(xiàn)任總經(jīng)理吉林正和先生當(dāng)時(shí)已經(jīng)進(jìn)入公司,他回顧公司的發(fā)展歷程時(shí)說:“30多年來,公司經(jīng)營的物流業(yè)務(wù)幾乎都集中在服裝領(lǐng)域,因此積累了豐富的服裝物流經(jīng)驗(yàn)。近些年,公司的物流設(shè)施及分揀設(shè)備等已開始老化,為此建設(shè)了新的物流中心。同時(shí),為適應(yīng)客戶新的需求,我們準(zhǔn)備配送服裝以外的貨物,因此決定引進(jìn)語音識(shí)別系統(tǒng)。”
目前,習(xí)志野物流中心處理的貨物以服裝為主,同時(shí)也負(fù)責(zé)配送鞋類以及其他日用品,據(jù)說已接到約20家客戶的業(yè)務(wù)委托。物流中心根據(jù)客戶訂單的要求進(jìn)行分揀、貼標(biāo)簽等操作,然后向全國配送。
服裝類商品主要來自中國大陸及臺(tái)灣、越南等地,平均每天發(fā)送10萬件左右,需要投入包括物流中心職員和小時(shí)工在內(nèi)的50~60人從事物流作業(yè),并根據(jù)業(yè)務(wù)量進(jìn)行靈活調(diào)整。
適應(yīng)市場(chǎng)變化
在公司的舊址茜浜,倉庫內(nèi)的主要設(shè)備除了大型托盤輸送機(jī)外,還有自動(dòng)分揀機(jī)。如果要繼續(xù)使用這些設(shè)備,物流中心一層需要擁有2310平方米的面積,并且老化的設(shè)備也需要大筆資金進(jìn)行維修,如此看來實(shí)屬浪費(fèi)。可以說,繼續(xù)使用大型設(shè)備的外部條件發(fā)生了變化。
自動(dòng)分揀機(jī)每小時(shí)的處理能力達(dá)2000件,這是人工作業(yè)望塵莫及的。如果不使用分揀機(jī),根本不可能達(dá)到2000件/小時(shí)的處理能力,那么其他設(shè)備也都會(huì)閑置下來,其結(jié)果將是物流中心無法應(yīng)對(duì)市場(chǎng)的變化。
神田公司經(jīng)營策劃室的松尾健太郎科長(zhǎng)談到:“考慮公司業(yè)務(wù)范圍的變化,我們的方針是保證低成本的同時(shí),新系統(tǒng)要能夠應(yīng)對(duì)市場(chǎng)的變化。”
這個(gè)新系統(tǒng)就是“語音識(shí)別系統(tǒng)”。
選擇語音識(shí)別系統(tǒng)
耳、眼、手、口總動(dòng)員
吉林總經(jīng)理談到:“在建設(shè)新物流中心時(shí),神田面臨的最大問題是建設(shè)資金,因此我們要控制初期投資。如果使用自動(dòng)分揀機(jī),至少需要2~3億日元的資金,但我們的總預(yù)算只有1億日元。而且還要求必須保證訂單的交付時(shí)間。最終,我們選擇了語音識(shí)別系統(tǒng)。”
除軟件外,新物流中心引進(jìn)的設(shè)備只有掛在腰間的便攜式終端和耳機(jī),共25套。包括基礎(chǔ)系統(tǒng)改造在內(nèi),總投資共6000萬日元。
實(shí)際上,神田公司從幾年前就已開始研究語音識(shí)別系統(tǒng),只不過一直沒有對(duì)外公開。
新物流中心處理的貨物仍以服裝為主。通常,以箱(盒)為包裝的物品是很容易處理的,數(shù)量統(tǒng)計(jì)也不易出錯(cuò)。但服裝往往裝在塑料袋中,既薄又輕,進(jìn)行揀選操作時(shí),如果工作人員一只手拿著無線終端,另一只手拿著塑料袋,不容易讀取條碼標(biāo)簽,又容易數(shù)錯(cuò)數(shù)量。此外,服裝的一大特點(diǎn)是顏色、規(guī)格多,SKU多,因此,如果使用手持終端進(jìn)行操作將非常費(fèi)力。
現(xiàn)在使用語音識(shí)別系統(tǒng),終端掛在腰間,解放了雙手,操作人員可以用雙手完成揀選作業(yè)。操作人員通過耳機(jī)得到系統(tǒng)指令的同時(shí),可以立即回應(yīng),而不需要“看明細(xì)”、“按開關(guān)”的動(dòng)作,能夠集中精力進(jìn)行揀選。
松尾科長(zhǎng)說:“過去,物流現(xiàn)場(chǎng)的操作在很大程度上依賴于‘眼睛’,所有終端和明細(xì)單都必須用眼睛來判斷,如果看錯(cuò)了。就會(huì)直接導(dǎo)致發(fā)錯(cuò)貨。現(xiàn)在有了語音識(shí)別系統(tǒng),其最大的魅力就是通過‘聽’接受指令,用‘眼’和‘手’來確認(rèn),用‘說’來回應(yīng),讓兩手同時(shí)工作。這就是感覺器官的總動(dòng)員。由此帶來工作準(zhǔn)確率和效率的大幅提高。”
這也是神田公司選擇語音識(shí)別系統(tǒng)的初衷。
語音揀選解決方案在世界的發(fā)展
回顧歷史,在上世紀(jì)90年代,日本有幾家公司曾引進(jìn)過語音識(shí)別系統(tǒng),但由于當(dāng)時(shí)的識(shí)別能力有限,結(jié)果半途而廢。之后,經(jīng)過改良的語音識(shí)別系統(tǒng)再度登場(chǎng),尤其是在歐美物流界頗受歡迎,其中VOCOLLECT公司開始嶄露頭角。
特別值得一提的是,世界零售巨頭沃爾瑪把語音識(shí)別系統(tǒng)作為標(biāo)準(zhǔn)化配置的系統(tǒng),在其世界各地的物流中心都在使用。早在3年前,日本國內(nèi)的沃爾瑪旗下的西友?三鄉(xiāng)物流中心業(yè)也已引進(jìn)了VOCOLLECT的產(chǎn)品。
此后,眾多經(jīng)銷商的市場(chǎng)拓展行動(dòng)終于開啟了語音揀選的世界市場(chǎng)之門。VOCOLLECT公司于2006年成立了VOCOLLECT日本分公司,同時(shí)在東歐、南美也逐漸打開市場(chǎng),目前年銷售額近100億日元,占世界同行業(yè)銷售的80%。
承擔(dān)神田公司語音系統(tǒng)建設(shè)項(xiàng)目的日本優(yōu)利公司售后服務(wù)事業(yè)部矢島孝安部長(zhǎng)說:“人們往往認(rèn)為只憑借聲音并不十分可靠,但VOCOLLECT的產(chǎn)品解決了這一難題。其識(shí)別系統(tǒng)和硬件設(shè)備組成了堪稱完美的系統(tǒng)。”
VOCOLLECT產(chǎn)品的特性
VOCOLLECT日本分公司總經(jīng)理塞薩爾?西森介紹說,市場(chǎng)上的其他產(chǎn)品大多是把幾家公司的終端和軟件組合在一起,而VOCOLLECT則根據(jù)物流現(xiàn)場(chǎng)的實(shí)際需要,從硬件到軟件都是自主研發(fā)的,具有非常實(shí)用的語音識(shí)別功能,能夠用日語應(yīng)答就是其一大特色。
如何確保語音識(shí)別的精度是使用中的關(guān)鍵問題。塞薩爾?西森總經(jīng)理認(rèn)為,要提高語音識(shí)別的精度是有前提的。語音識(shí)別的基本條件是“指定說話人”和“不指定說話人”,在日本,其他公司都選擇了“不指定說話人”,唯獨(dú)VOCOLLECT公司選擇了“指定說話人”。塞薩爾?西森總經(jīng)理指出,在被噪音環(huán)繞的物流和生產(chǎn)現(xiàn)場(chǎng),“不指定說話人”的方式存在很多問題。
“不指定說話人”即任何人的聲音都可能被確認(rèn)。因?yàn)樗雎粤嗣總€(gè)人聲音的差異,那么其識(shí)別能力自然低下,特別是在噪音大的場(chǎng)所,附近幾個(gè)人同時(shí)作業(yè),如果別人的聲音一旦被確認(rèn)。必將出現(xiàn)差錯(cuò)。
VOCOLLECT公司的“指定說
話人”的方式,是根據(jù)每個(gè)人所發(fā)出的聲音的頻率而設(shè)定的,具有聲音識(shí)別功能。這在很大程度上提高了識(shí)別精確度。在實(shí)際操作中,只要改變用戶名、輸入ID號(hào),就能夠直接調(diào)出所需的信息,因此在登錄系統(tǒng)后,其他工作人員也可以使用。
當(dāng)然。每個(gè)工作人員初次登錄時(shí),都需要經(jīng)過多次練習(xí),登錄加練習(xí)的時(shí)間大約在20-30分鐘。因?yàn)樵O(shè)有語音矯正功能,經(jīng)過幾次練習(xí),工作人員就可以熟練掌握。
此外,終端設(shè)備的堅(jiān)固性也非常突出,即使跌落地面,或被踩、被壓,都能保持完好無損。這給工作人員帶來安全感,可以全神貫注地投入揀選工作。
構(gòu)建并起用系統(tǒng)僅耗時(shí)3個(gè)月
神田公司選擇日本優(yōu)利推薦的VOCOLLECT公司的語音識(shí)別系統(tǒng)之前,已對(duì)該系統(tǒng)的結(jié)構(gòu)和實(shí)用性做了全面、細(xì)致的調(diào)查和論證。
吉林總經(jīng)理說:“因?yàn)槲覀兪鞘状问褂谜Z音識(shí)別系統(tǒng),因此必須進(jìn)行全面的考察。在考察3家日用品批發(fā)商使用該系統(tǒng)的效果時(shí),我們發(fā)現(xiàn)該系統(tǒng)不僅能用于分揀,還能用于盤點(diǎn)。這也是我們選擇它的一個(gè)重要原因。事實(shí)證明這個(gè)系統(tǒng)是完美的。”
接下來的系統(tǒng)設(shè)計(jì),神田公司僅給優(yōu)利公司和VOCOLLECT公司3個(gè)月時(shí)間。在此期間,神田為了讓員工盡快進(jìn)入狀態(tài),在現(xiàn)場(chǎng)進(jìn)行實(shí)地演示。2008年8月15~16日,公司在搬遷的同時(shí)安裝新系統(tǒng),18日就開始正常發(fā)貨了。
下面介紹語音識(shí)別系統(tǒng)的實(shí)際應(yīng)用。
貨物初次分揀
1、2、總體分類
語音識(shí)別系統(tǒng)主要應(yīng)用于服裝的發(fā)貨流程。
圖1、圖2是位于物流中心二層的存儲(chǔ)區(qū)。每天上午,操作人員根據(jù)發(fā)貨指示,首先進(jìn)行總體分類,即把當(dāng)天需要發(fā)的貨按款式分別集中在臺(tái)車上的紙箱中。這里的揀選作業(yè)是對(duì)照產(chǎn)品明細(xì)進(jìn)行的。
3 二次分揀
在相鄰的揀選區(qū),貨物按照店鋪別進(jìn)行分揀。在圖3中,左邊是使用手持終端進(jìn)行掃描,右邊是使用語音識(shí)別系統(tǒng)進(jìn)行揀選。
4、5手持終端+輸送機(jī)
總體分類完成后,把紙箱放到輸送機(jī)上,按發(fā)貨店鋪的不同,用手持終端逐一進(jìn)行掃描。
因?yàn)槊考浳锖彤a(chǎn)品明細(xì)都要進(jìn)行掃描,因此排除了款式錯(cuò)誤的可能。但因?yàn)槭菃问肿鳂I(yè),尤其對(duì)于較薄的服裝,產(chǎn)品數(shù)量容易弄錯(cuò)。偶爾也會(huì)發(fā)生無法讀取條碼標(biāo)簽的情況,或者標(biāo)簽被翻轉(zhuǎn)放置,此時(shí)操作起來相當(dāng)費(fèi)力。
6、7、臺(tái)車+手持終端
圖6是臺(tái)車分揀區(qū)。臺(tái)車底層放置了4個(gè)空周轉(zhuǎn)箱用于調(diào)節(jié)高度,上層的4個(gè)周轉(zhuǎn)箱分別代表4個(gè)店鋪,操作人員同時(shí)處理4家店鋪的貨物,操作非常快捷。當(dāng)然。通道,必須留有足夠的寬度,以保證臺(tái)車通過。
使用語音識(shí)別系統(tǒng)進(jìn)行揀選
8~11 語音識(shí)別揀選
前面提到的輸送機(jī)傳送來的周轉(zhuǎn)箱到達(dá)此處,按照發(fā)貨店鋪的不同依次進(jìn)行揀選。此時(shí)操作人員通過耳機(jī)接收指示,用麥克進(jìn)行回應(yīng),在“是”、“下面”的應(yīng)聲中進(jìn)行分揀作業(yè)。不僅雙手可同時(shí)操作,并且不需要看手持終端顯示的數(shù)據(jù),只需用眼睛確認(rèn)發(fā)貨明細(xì)上的代碼即可。
操作人員聽到的是什么樣的指示呢?是商店代碼、貨物代碼以及揀選的數(shù)量等,速度很快,聽到指示后必須立刻做出回應(yīng)。按照操作人員的話說:“聲音的節(jié)奏逐漸變快,我們已經(jīng)習(xí)慣了這樣的速度。”由于每個(gè)人的聽力和反應(yīng)速度存在差別,物流中心根據(jù)這一差別安排操作人員的崗位。
操作人員做出回應(yīng)后。下面的指示隨即就到。在這種快節(jié)奏中,幾乎沒有等待指示或閑下來的時(shí)間。
塞薩爾?西森總經(jīng)理說:“如果是使用手持終端,必然存在等待指令的時(shí)間。使用語音識(shí)別系統(tǒng)后,節(jié)省了操作時(shí)間。一旦有空閑的時(shí)間,操作人員反而會(huì)不習(xí)慣。”
VOCOLLECT的設(shè)計(jì)中包含了勞動(dòng)心理學(xué)原理,因?yàn)椴僮魅藛T的腰間攜帶了便攜終端,每個(gè)人可以調(diào)節(jié)適合自己的速度。
系統(tǒng)投入使用后,操作人員的熟練程度不斷提高,人均處理能力由原來每小時(shí)200~300件提高到500~700件。
此外,夏裝和冬裝有所不同,操作效率也存在差別,但結(jié)果卻比預(yù)期提高了50%。
12、13、不同商店的發(fā)貨明細(xì)及標(biāo)簽
根據(jù)語音指令做好的發(fā)貨明細(xì)上,標(biāo)有貨物代碼和商店代碼,暫時(shí)貼在貨箱的外面(圖12),待貨箱裝滿后,再把發(fā)貨明細(xì)放入箱中,然后把箱子放到輸送機(jī)上。
14、檢驗(yàn)
通過語音識(shí)別系統(tǒng)揀選的貨物。因?yàn)闆]有讀取條形碼,因此在包裝前需要檢查一遍。數(shù)量少時(shí)只要確認(rèn)條形碼即可,數(shù)量多時(shí)全部都要進(jìn)行檢驗(yàn)。
15、無線傳輸
通過2.4GHz的無線電波頻率,無線終端與服務(wù)器聯(lián)網(wǎng)后,進(jìn)行數(shù)據(jù)交換。
16、充電
在辦公室一角的架子上,放置了25臺(tái)充電器,以便為終端進(jìn)行充電。每次的充電過程需要8小時(shí)。
17、語音系統(tǒng)的管理
在同一辦公室內(nèi)設(shè)置了語音系統(tǒng)的管理器。畫面上顯示的是神田公司的WMS與合作公司VOCOLLECT的管理過程。
貼標(biāo)簽、包裝、發(fā)貨
18、19、貼價(jià)格標(biāo)簽、過檢針
貼價(jià)格標(biāo)簽、過檢針的操作也在物流中心二層完成。
20、21、搬運(yùn)發(fā)貨箱
貨箱打包完畢后碼盤,托盤貨物用叉車搬到垂直輸送機(jī),送往一層出貨區(qū)。
22、23、裝車
在出貨口,貨物裝上卡車,送到各店鋪。
目前,像這樣成功應(yīng)用語音識(shí)別系統(tǒng)的案例在日本還不多見。吉林總經(jīng)理對(duì)于初次引進(jìn)語音識(shí)別系統(tǒng)是這樣評(píng)價(jià)的:對(duì)于習(xí)慣了以往傳統(tǒng)分揀方法的操作人員來講,他們完全沒有不適應(yīng)的感覺,反而更喜歡現(xiàn)在極富節(jié)奏感的作業(yè)。
中圖分類號(hào):TN912.34
當(dāng)噪音引起連續(xù)語音信號(hào)失真時(shí),提取的連續(xù)語音特征曲線也會(huì)在時(shí)域和頻域內(nèi)失真[1]。如果用帶噪特征去匹配純凈語音的特征模型,會(huì)造成帶噪特征與模型之間的不匹配,這就導(dǎo)致了識(shí)別率的下降。
在連續(xù)語音識(shí)別中為了減少上述不匹配的問題,有三種主要解決技術(shù)。一是多條件或者多類型的訓(xùn)練方法,也就是使用帶噪數(shù)據(jù)來進(jìn)行訓(xùn)練[2]。雖然這個(gè)方法能夠在特定的噪音環(huán)境下可以得到較好的識(shí)別精度,但是如果噪音環(huán)境發(fā)生變化識(shí)別精度還會(huì)急劇的降低。換言之,如果待識(shí)別數(shù)據(jù)與模型數(shù)據(jù)的條件(環(huán)境)不同,如:信噪比或者噪聲類型,在待識(shí)別數(shù)據(jù)和模型之間仍會(huì)存在不匹配的現(xiàn)象。二是采用自適應(yīng)模型方法[3],通過自適應(yīng)模型來減少不匹配的問題。這種訓(xùn)練模型方法同時(shí)使用純凈和噪音數(shù)據(jù)來進(jìn)行訓(xùn)練,這又會(huì)導(dǎo)致模型的區(qū)分度不高,同樣會(huì)是識(shí)別精度下降。三是采用特征歸一化方法,這種方法雖然不能從根本上改變待識(shí)別特征與模型之間的不匹配,但是在一定程度上會(huì)保留模型的區(qū)分度并減少由于環(huán)境變化導(dǎo)致帶噪語音失真的影響。本文主要研究第三種方法。
語音增強(qiáng)和特征補(bǔ)償方法以恢復(fù)語音特征為目的,但是特征歸一化方法只是對(duì)語音特征的某些統(tǒng)計(jì)信息進(jìn)行改變,并期望由此減少噪聲引起的失真。不論是語音補(bǔ)償還是特征補(bǔ)償,都需要改變語音的特征向量,而傳統(tǒng)的歸一化方法只是對(duì)語音特征統(tǒng)計(jì)信息的范圍進(jìn)行處理,提出的算法在保證原有語音統(tǒng)計(jì)信息的前提下,適當(dāng)改變部分語音特征向量。從而減少由噪音引起的語音特征曲線的失真。
動(dòng)態(tài)范圍調(diào)整方法屬于歸一化方法的一種,能夠?qū)Ω蓛艉蛶г胝Z音的特征統(tǒng)計(jì)信息處理到相對(duì)較小的一個(gè)范圍內(nèi)。歸一化方法能夠根據(jù)一些模板值減少噪音特征在統(tǒng)計(jì)信息上的影響。相比使用歸一化方法之前,在干凈語音特征和帶噪語音特征之間的不匹配部分會(huì)顯著減少。語音增強(qiáng)一般應(yīng)用在時(shí)域和頻域中恢復(fù)語音特征的質(zhì)量。特征補(bǔ)償方法通常應(yīng)用在加強(qiáng)連續(xù)語音系數(shù)在對(duì)數(shù)濾波階數(shù)和頻譜域使用。
減少待識(shí)別語音特征和模型的不匹配的方法雖然不是提高語音識(shí)別魯棒性的唯一方法,但卻是一種很有效的方法。通過這種方法可以減少待識(shí)別特征和模型之間的不匹配使得識(shí)別性能得以提高。
1 噪音對(duì)孤立詞語音數(shù)據(jù)的影響
加法性噪音和乘法性噪音是影響語音信號(hào)最普通的兩種噪音類型。例如:加法性噪音包含背景噪音,交通噪音,等等。乘法性噪音主要是傳輸過程中產(chǎn)生的信道失真。例如麥克風(fēng)自身的噪音,房間的反射噪音等等。干凈的語音信號(hào)首先被信道失真所干擾,進(jìn)一步被加法性噪音干擾。
包含噪音的頻譜可以用如下公式描述:
噪音干擾在增益部分和直流分量部分的影響是不同的,如圖1所示:在孤立詞識(shí)別中,很多實(shí)驗(yàn)表明使用DRA方法對(duì)加法性噪音和乘法性噪音都具有很好的性能。
圖2展示了噪音影響在孤立詞中的性能。在圖2中,有兩條不同的特征曲線,曲線表示了干凈語音和10db信噪比的噪音特征在第二項(xiàng)MFCC中。者兩條曲線來源于同一個(gè)語音數(shù)據(jù)。
然而,由于噪音嚴(yán)重的影響,噪音下的MFCC特征曲線的動(dòng)態(tài)范圍要小于干凈語音的MFCC特征曲線的動(dòng)態(tài)范圍。如果使用干凈語音特征建立HMM訓(xùn)練模型,能夠獲得理想的模型并在同等條件下獲得更高的識(shí)別率。但是對(duì)噪音下的語音識(shí)別,由于上述的原因,自動(dòng)語音識(shí)別系統(tǒng)無法在任何噪音下獲得正確的識(shí)別結(jié)果。雖然DRA歸一化方法能夠在孤立詞識(shí)別中獲得較好的識(shí)別結(jié)果,但直接用于連續(xù)語音識(shí)別并不是特別的理想。
圖2展示了在孤立詞中不匹配的峰值。DRA歸一化方法算法使用最大值的方法將頻譜系數(shù)范圍標(biāo)準(zhǔn)化到一個(gè)統(tǒng)一的范圍。在每個(gè)維度,DRA方法將干凈或者帶噪語音頻譜系數(shù)的動(dòng)態(tài)范圍調(diào)整到同一個(gè)標(biāo)準(zhǔn)范圍中。但在孤立詞識(shí)別中,特征曲線中的峰值是有限的。歸一化方法非常適用于孤立詞識(shí)別。而連續(xù)語音識(shí)別特征曲線的峰值要遠(yuǎn)多于孤立詞識(shí)別,歸一化方法并不直接適用。
2 噪音對(duì)連續(xù)語音數(shù)據(jù)的影響
對(duì)連續(xù)語音特征曲線來說,不匹配的峰值隨著語音特征曲線的增長(zhǎng)而增加,語音特征曲線的動(dòng)態(tài)范圍隨著噪音的增加而減少。因此簡(jiǎn)單的歸一化算法不能有效適用連續(xù)語音識(shí)別。
我們的目標(biāo)是縮小待識(shí)別噪音特征曲線與干凈的語音特征曲線之間的差異。經(jīng)過噪音魯棒性方法和DRA方法,語音信號(hào)中的直流分量的不同得以減少,特征曲線中不匹配的峰值也得以減少。
基于前面提到的孤立詞識(shí)別的歸一化方法,我們可以假設(shè)噪音沒有改變?cè)械奶卣髑€的統(tǒng)計(jì)順序,也就是在語音特征曲線上會(huì)存在很多峰值,如第一高峰值,第二高峰值,等等。在連續(xù)語音特征中,全局的統(tǒng)計(jì)信息的匹配就在整個(gè)訓(xùn)練數(shù)據(jù)集中顯得比較重要。一般來說,這些特征曲線上的峰值信息代表了元音的語音特征。隨著訓(xùn)練量的增加,這些峰值信息一般會(huì)集中到相對(duì)穩(wěn)定的區(qū)域。但實(shí)際上,噪音通常會(huì)改變特征曲線的統(tǒng)計(jì)順序。如果能恢復(fù)部分特征曲線上統(tǒng)計(jì)信息的順序,就能增加這些峰值的匹配幾率。
雖然通過上述的圖示可以看出通過歸一化方法可以增加干凈語音特征曲線和帶噪語音特征曲線的擬合程度,連續(xù)語音特征曲線中存在較多的峰值,帶噪語音特征曲線會(huì)改變一些峰值的統(tǒng)計(jì)信息,因此把歸一化方法簡(jiǎn)單的使用到連續(xù)語音識(shí)別中無法達(dá)到如圖的擬合程度。提出的算法可以盡最大可能恢復(fù)帶噪語音的峰值統(tǒng)計(jì)信息。
使用DRA歸一化能提高特征曲線的峰值匹配概率。孤立詞特征曲線通常不含靜音部分,但在連續(xù)語音中,語音之間存在由于思考或者換氣產(chǎn)生的靜音,在此部分仍然使用歸一化方法在過渡位置會(huì)放大只有噪音的信號(hào)特征。這就導(dǎo)致了連續(xù)語音特征在此部分無法匹配。
根據(jù)上面的討論,可以通過下面兩步對(duì)特征曲線進(jìn)行處理。
第一步:從連續(xù)語音數(shù)據(jù)中提取所有的短句子。
估計(jì)無音部分。連續(xù)語音包含許多無音部分和只有噪音的部分,因?yàn)檫@些部分不適合使用DRA。在下一步中消除連續(xù)語音特征曲線中各個(gè)動(dòng)態(tài)范圍的不平衡性。
第二步:把選取出來的短句子分成更小的片段,在每個(gè)片段中使用歸一化方法。
如果片段的長(zhǎng)度接近短句長(zhǎng)度,導(dǎo)致識(shí)別結(jié)果與傳統(tǒng)DRA方法接近,如果片段的長(zhǎng)度特別小,則導(dǎo)致識(shí)別精度急劇下降。根據(jù)實(shí)驗(yàn)得到經(jīng)驗(yàn)數(shù)據(jù)當(dāng)片段長(zhǎng)度為80幀時(shí),識(shí)別精度最高。不同片段長(zhǎng)度得到的識(shí)別結(jié)果如下圖:
3 小結(jié)
在訓(xùn)練過程中使用大量的數(shù)據(jù)可以使各個(gè)音素的模型逐漸集中在某一個(gè)范圍。對(duì)于測(cè)試數(shù)據(jù)來說,音素的范圍很有可能與模型不在同一個(gè)范圍內(nèi),待識(shí)別音素是有限的,不可知的。
使用噪音魯棒性方法和DRA在建立區(qū)分度較高模型方法,這些魯棒性方法在發(fā)音較短的孤立詞識(shí)別中展現(xiàn)了良好的識(shí)別性能,并說明了這些方法無法直接在連續(xù)語音識(shí)別中的原因。
雖然在帶噪語音特征曲線和干凈語音特征曲線仍然有不匹配的峰值,需要指出的是,對(duì)比使用傳統(tǒng)的DRA算法,減少了不匹配的峰值。由此可以看出,使用提出的算法調(diào)整帶噪語音特征曲線可以增加峰值部分的匹配幾率。使用該算法在干凈和噪音環(huán)境下可以提高整體的識(shí)別性能。特別指出的是,提出的算法大幅提高了在噪音環(huán)境下的連續(xù)語音識(shí)別性能,根本原因就是相對(duì)于傳統(tǒng)的DRA,選擇了更合適的調(diào)整值,適當(dāng)?shù)姆糯罅朔逯怠T撍惴ㄔ谡Z音頻譜系數(shù)的對(duì)數(shù)系數(shù)特征里也適用。
參考文獻(xiàn):
1 前言
新一代特種車輛的車載顯控系統(tǒng)對(duì)復(fù)雜噪聲環(huán)境下的語音控制(語音識(shí)別與語音合成)組件提出了新的需求,當(dāng)前的車載顯控系統(tǒng)需要具備語音采集、識(shí)別和合成輸出的功能,而特種車輛在任務(wù)中的復(fù)雜噪聲的污染會(huì)使許多語音處理系統(tǒng)性能急劇惡化。由于特種車輛的車載強(qiáng)噪聲環(huán)境的特殊性,現(xiàn)有的商用語音識(shí)別模塊產(chǎn)品均難以滿足其環(huán)境的使用要求。
本文基于特種車輛對(duì)語音控制設(shè)計(jì)需求,針對(duì)特種車輛座艙(以下簡(jiǎn)稱車載座艙)殊的噪聲環(huán)境,進(jìn)行車載座艙噪聲環(huán)境下語音降噪組件設(shè)計(jì),實(shí)現(xiàn)了語音信號(hào)的降噪處理,并采用商用的語音識(shí)別模塊進(jìn)行測(cè)試驗(yàn)證。測(cè)試結(jié)果表明,此方案在車載座艙環(huán)境下具有很好的降噪效果。
2 系統(tǒng)構(gòu)成及工作原理
2.1 系統(tǒng)構(gòu)成
車載座艙語音降噪系統(tǒng)由硬件平臺(tái)和語音降噪軟件兩部分組成,具體如下:
2.1.1 硬件組成
基于Freescalei.MX6 Dual SOC平臺(tái)的語音降噪模塊、XFV5310語音識(shí)別與合成模塊;
2.1.2 軟件組成
OS為L(zhǎng)inux,內(nèi)核為3.14.52,嵌入式語音降噪軟件。
2.2 工作原理
車載座艙語音降噪識(shí)別系統(tǒng)的工作原理為:當(dāng)駕駛員啟動(dòng)語音控制功能時(shí),i.MX6D語音降噪模塊向XFV5310語音識(shí)別模塊發(fā)送語音識(shí)別啟動(dòng)命令,音頻采集模塊開始采集駕駛員說出的帶噪語音指令,經(jīng)由語音降噪模塊實(shí)時(shí)處理后,將降噪后的語音指令傳送給語音識(shí)別模塊,根據(jù)識(shí)別結(jié)果進(jìn)行相應(yīng)指令的操作響應(yīng),從而執(zhí)行駕駛員下達(dá)的語音指令。圖1所示為車載座艙語音降噪系統(tǒng)的工作原理框圖。
如圖1所示,車載座艙語音降噪識(shí)別系統(tǒng)的工作原理如下:
(1)帶噪語音源獲取有兩種方式:
1.由音箱播放特種車輛真實(shí)任務(wù)過程中的車內(nèi)環(huán)境噪聲文件來模擬車載噪聲環(huán)境,噪聲強(qiáng)度通過分貝測(cè)試儀的讀數(shù)控制;通過MIC說出語音指令;
2.讀取事先錄制的并按照特定信噪比疊加的.wav格式帶噪語音指令文件。
(2)通過音頻編解碼芯片STGL5000將輸入的模擬帶噪音頻進(jìn)行PCM編碼,并將數(shù)字帶噪音頻輸出給語音降噪軟件;
(3)語音降噪軟件對(duì)數(shù)字帶噪音頻進(jìn)行降噪處理,生成數(shù)字降噪音頻。
(4)降噪音頻存儲(chǔ)文件和播放輸出:
1.數(shù)字降噪音頻輸出給STGL5000進(jìn)行PCM解碼和DA轉(zhuǎn)換,生成模擬降噪音頻,通過2.0音箱播放并輸入給XFV5310模塊進(jìn)行語音識(shí)別;
2.數(shù)字降噪音頻數(shù)據(jù)存儲(chǔ)為wav格式音頻文件。
(5)語音降噪軟件的串口通訊:
1.通過RS232調(diào)試串口控制車載座艙語音降噪組件的工作狀態(tài):開始工作、錄音模式(開始錄音、停止錄音)、讀取wav文件模式、停止工作,并實(shí)時(shí)顯示組件的工作狀態(tài)和語音識(shí)別結(jié)果;
2.通過RS232通訊串口,根據(jù)XFV5310串口通訊協(xié)議,控制XFV5310模塊的工作狀態(tài)(初始化、開始識(shí)別、停止)并接收回傳的狀態(tài)信息和語音識(shí)別結(jié)果。
3 系統(tǒng)軟件算法設(shè)計(jì)
車載座艙語音降噪識(shí)別軟件(以下簡(jiǎn)稱CSE軟件)運(yùn)行在嵌入式Linux操作系統(tǒng)下,用于采集模擬帶噪語音信號(hào),對(duì)采集的數(shù)字帶噪音頻信號(hào)進(jìn)行降噪處理,并將降噪語音信號(hào)發(fā)送給語音識(shí)別與合成模塊進(jìn)行語音識(shí)別,最后處理識(shí)別模塊返回的識(shí)別結(jié)果。CSE軟件主要完成初始化功能、語音錄音功能、WAV文件讀取功能、WAV文件存儲(chǔ)功能、語音播放功能、語音降噪功能以及RS232串口通訊功能。CSE軟件執(zhí)行流程圖如圖2所示。
初始化模塊主要完成RS232串口初始化、錄音配置、語音播放配置及信號(hào)量初始化。
錄音模塊主要完成音頻采集。由于規(guī)定語音指令長(zhǎng)度最大為5S,在錄音時(shí)判斷錄音時(shí)間是否達(dá)到5S或是否收到結(jié)束信號(hào),如兩者均未發(fā)生,則采集一個(gè)周期音頻樣本,并保存至帶噪音頻數(shù)組中,如此循環(huán),直至收到錄音結(jié)束控制信號(hào)或錄音時(shí)間達(dá)到5S。
WAV文件存儲(chǔ)模塊實(shí)現(xiàn)將音頻文件以.WAV格式存儲(chǔ)。首先存儲(chǔ)WAV文件頭,主要完成WAV文件文件頭數(shù)據(jù)初始化,并檢查文件頭每個(gè)字節(jié)的合法性,最后將檢測(cè)合格的WAV文件文件頭存儲(chǔ)在.wav文件中,WAV文件頭存儲(chǔ)后將音頻數(shù)據(jù)寫在WAV文件頭數(shù)據(jù)后。
WAV文件讀取模塊實(shí)現(xiàn)讀取WAV文件文件頭,對(duì)文件頭進(jìn)行解析,并讀取WAV文件的音頻數(shù)據(jù)。
音頻播放模塊主要實(shí)現(xiàn)將降噪處理后的音頻數(shù)據(jù)實(shí)時(shí)地通過聲卡播放出來,以做識(shí)別處理。由于在ALSA音頻驅(qū)動(dòng)中,對(duì)音頻設(shè)備的數(shù)據(jù)訪問以及音頻數(shù)據(jù)的存儲(chǔ)都是以周期為單位進(jìn)行操作,所以在播放時(shí)要判斷已經(jīng)降噪處理但未播放的音頻數(shù)據(jù)是否達(dá)到周期樣本數(shù),如達(dá)到則播放音頻數(shù)據(jù),其次還要判斷錄音是否已經(jīng)結(jié)束,如果結(jié)束,判斷是否還有音頻數(shù)據(jù)未播放,如有則播放剩余的音頻數(shù)據(jù)。
語音降噪模塊對(duì)采集或從文件中讀取的帶噪語音進(jìn)行降噪處理。首先采用可移動(dòng)的有限長(zhǎng)度窗口實(shí)現(xiàn)對(duì)帶噪語音分幀加窗,分幀加窗結(jié)束后,將每一幀帶噪語音分別進(jìn)行短時(shí)快速傅里葉變換,然后實(shí)現(xiàn)帶噪音頻的降噪。實(shí)現(xiàn)SMSS降噪算法的基本思想是基于統(tǒng)計(jì)模型更新信噪比和當(dāng)前幀噪聲功率譜,根據(jù)帶噪語音頻譜中不同頻帶的信噪比,確定噪聲的譜減因子,然后用帶噪語音減去噪聲和譜減因子的乘積,得到降噪后的語音。在信噪比更新方面,主要采取由先驗(yàn)信噪比和后驗(yàn)信噪比決定SNR的方法,在噪聲譜估計(jì)方面基于統(tǒng)計(jì)模型的VAD方法。降噪處理后再進(jìn)行短時(shí)快速傅里葉反變換(ISFFT),得到時(shí)域的降噪語音信號(hào)數(shù)據(jù),按幀續(xù)進(jìn)行逆分幀重排后得到降噪后的語音信號(hào),最后進(jìn)行存儲(chǔ)為.WAV格式文件或者直接播放輸出。
串口通訊模塊主要實(shí)現(xiàn)發(fā)送識(shí)別請(qǐng)求,獲取識(shí)別請(qǐng)求響應(yīng)結(jié)果以及對(duì)識(shí)別結(jié)果解析。在語音播放之前,需要啟動(dòng)XFV5310開發(fā)板的識(shí)別功能,由識(shí)別啟動(dòng)模塊發(fā)送語音識(shí)別啟動(dòng)命令,開發(fā)板收到命令幀后會(huì)判斷此命令幀正確與否,并回傳結(jié)果,識(shí)別啟動(dòng)模塊接收回傳數(shù)據(jù)。發(fā)送識(shí)別啟動(dòng)命令后,如果識(shí)別啟動(dòng)模塊在5.5S內(nèi)未收到XFV5310開發(fā)板回傳,則默認(rèn)識(shí)別開發(fā)板無反應(yīng),識(shí)別啟動(dòng)模塊將退出等待。當(dāng)語音識(shí)別啟動(dòng)后,XFV5310開發(fā)板將會(huì)在識(shí)別處理結(jié)束后將相應(yīng)的識(shí)別結(jié)果回傳給CSE軟件。回傳的數(shù)據(jù)以“幀”的方式封裝后傳輸。識(shí)別結(jié)果解析功能是當(dāng)語音降噪軟件接收到XFV5310開發(fā)板的回傳的識(shí)別結(jié)果,根據(jù)通訊協(xié)議對(duì)XFV5310開發(fā)板發(fā)來的識(shí)別結(jié)果解碼。
4 系統(tǒng)測(cè)試驗(yàn)證
4.1 測(cè)試環(huán)境
車載座艙語音降噪組件的測(cè)試驗(yàn)證試驗(yàn)中,各模塊間的交聯(lián)關(guān)系如圖3所示。
4.2 測(cè)試方法及結(jié)果
在車載復(fù)雜噪聲環(huán)境下,特定信噪比(-5dB、0dB、5dB)的語音指令,未經(jīng)降噪前語音質(zhì)量差,指令模糊,商用XFV5310語音識(shí)別與合成模塊對(duì)指令識(shí)別率低于65%。經(jīng)過本文設(shè)計(jì)的車載座艙語音降噪軟件處理后,系統(tǒng)的測(cè)試結(jié)果如表1所示。
4.3 測(cè)試結(jié)果分析
車載座艙語音降噪識(shí)別系統(tǒng)功能完整,語音錄音、播放、WAV文件讀取、存儲(chǔ)、語音降噪處理等功能都能符合需方的功能要求;特定信噪比(-5dB、0dB、5dB)下的語音指令識(shí)別率能夠滿足需方規(guī)定的指標(biāo)要求;語音降噪算法、降噪與識(shí)別的總耗時(shí)穩(wěn)定,不會(huì)隨著語音指令的增長(zhǎng)而增加耗時(shí),能夠滿足需方規(guī)定的指標(biāo)要求。
5 結(jié)束語
特種車輛工作環(huán)境下的帶噪語音經(jīng)車載座艙語音降噪識(shí)別系統(tǒng)處理后的語音聽感清晰,無明顯失真,無明顯噪聲殘留,且運(yùn)行總耗時(shí)較少,能夠滿足車載環(huán)境下語音降噪需求,配合商用的語音識(shí)別與合成模塊XFV5310組成的系統(tǒng)能夠滿足特種車輛在惡劣工作環(huán)境下的語音控制功能,將該系統(tǒng)與車載顯控模塊集成,滿足需方的功能與性能指標(biāo)要求,經(jīng)過實(shí)際裝車使用測(cè)試,證明本文設(shè)計(jì)的車載座艙語音降噪識(shí)別系統(tǒng)功能性、穩(wěn)定性和可靠性均能滿足特種車輛的使用要求。
參考文獻(xiàn)
[1]Loizou P,Speech enhancement:theory and practice[M].1st ed.CRC Taylor and Francis,2007:6-7.
[2]宋知用.MATLAB在語音信號(hào)分析與合成中的應(yīng)用[M].北京:北京航空航天大學(xué)出版社,2013.
[3]易克初,田斌,付強(qiáng).語音信號(hào)處理[M]. 北京:國防工業(yè)出版社,2003.
[4] Israel Cohen and Baruch Berdugo: Speech enhancement for non-stationary noise environments,[J].Signal Process.,vol.81,no.11,pp. 2403-2418,Nov.2001.
[5] Israel Cohen:Noise Estimation by Minima Controlled Recursive Averaging for Robust Speech Enhancement,[J].IEEE Signal processing letters,vol. 9,no.1,January 2002.
[6] Israel Cohen.“Noise Spectrum Estimation in Adverse Environments: Improved Minima Controlled Recursive Averaging”[J].IEEE Transactions on speech and audio processing,vol.11, no.5,Sep,2003.
[7] Israel Cohen:Relaxed statistical model for speech enhancement and a priori SNR estimation [J].IEEE Trans. Speech Audio Process.,vol.13, no.5,pt.2,pp.870-881,Sep,2005.
[8]張雄偉,陳亮,楊吉斌.現(xiàn)代語音處理技術(shù)及應(yīng)用[M].北京:機(jī)械工業(yè)出版社,2003.
[9]程塔,郭雷,趙天云,賀勝.非平穩(wěn)噪聲環(huán)境下的語音增強(qiáng)算法[J].西北工業(yè)大學(xué)學(xué)報(bào),2010,28(5):664-668.
[10]蔣海霞,成立新,陳顯治.一種改進(jìn)的譜相減語音增強(qiáng)方法[J].理工大學(xué)學(xué)報(bào),2001,2(l):41-44.
[11]孫楊,原猛,馮海泓.一種基于統(tǒng)計(jì)模型的改進(jìn)譜減降噪算法[J].聲學(xué)技術(shù),2013,32(2):115-118.
作者簡(jiǎn)介
中圖分類號(hào):TN912.34 文獻(xiàn)標(biāo)識(shí)碼:A
1語音識(shí)別技術(shù)
1.1語音識(shí)別技術(shù)簡(jiǎn)介
語音識(shí)別技術(shù)主要分為兩類,一是語音意義的識(shí)別,一種是目標(biāo)聲識(shí)別。第一個(gè)被稱為語音識(shí)別,它是根據(jù)聲音的成詞特點(diǎn)對(duì)聲音進(jìn)一步分析,主要應(yīng)用在人工智能,人機(jī)對(duì)話和快速輸入等領(lǐng)域。通過訪問聲音的特征,從目標(biāo)語音中進(jìn)行提取,該項(xiàng)技術(shù)可以區(qū)分多目標(biāo)語音的種類,確定目標(biāo),主要用于戰(zhàn)場(chǎng)目標(biāo)識(shí)別領(lǐng)域,海上偵察系統(tǒng),預(yù)警系統(tǒng),軍事聲納識(shí)別,車輛聲音識(shí)別,火車預(yù)警系統(tǒng),動(dòng)物個(gè)體的語音識(shí)別和家庭安全系統(tǒng)等。
科技研究人員通過對(duì)語音信號(hào)處理技術(shù)進(jìn)行深入的研究,結(jié)果發(fā)現(xiàn):人的聽覺系統(tǒng)的聲音配合具有獨(dú)特的優(yōu)勢(shì),它能準(zhǔn)確地提取目標(biāo)的聲音特征,準(zhǔn)確地辨別聲音的方向和內(nèi)容分類,所以基于仿生聽覺系統(tǒng)的目標(biāo)聲識(shí)別技術(shù)備受現(xiàn)代前沿科技的關(guān)注。針對(duì)目標(biāo)聲音識(shí)別系統(tǒng)的研究工作成為了現(xiàn)代語音識(shí)別技術(shù)研究的一個(gè)熱門方向,不少科技研究人員正在積極探索先進(jìn)可行的仿生學(xué)理論,特征提取技術(shù)和語音識(shí)別技術(shù)。
1.2語音識(shí)別技術(shù)的研究現(xiàn)狀
語音識(shí)別技術(shù)主要是通過對(duì)監(jiān)測(cè)數(shù)據(jù)的聲音特性分析,得到聲音特性的樣本文件。語音識(shí)別技術(shù)是一種非接觸技術(shù),用戶可以很自然地接受。但語音識(shí)別技術(shù)和其他行為識(shí)別技術(shù)具有共同的缺點(diǎn),即輸入樣本的變化太大,所以很難完成一些精確的匹配,聲音也會(huì)伴隨著速度,音質(zhì)的變化而影響到信號(hào)的采集和結(jié)果的比較。
在語音識(shí)別中,語音識(shí)別是最早也是比較成熟的領(lǐng)域。隨著越來越多的應(yīng)用需求,識(shí)別聲音并不局限于語音識(shí)別,人們開始深入研究目標(biāo)識(shí)別技術(shù)的非語音識(shí)別,該項(xiàng)技術(shù)已經(jīng)參照了成熟的語音識(shí)別技術(shù)的一部分,但由于各自的應(yīng)用環(huán)境和實(shí)際的音頻特征之間的差異,該技術(shù)還存在一些差異。
1.3語音識(shí)別技術(shù)的實(shí)際應(yīng)用
在民用方面,目標(biāo)聲音識(shí)別系統(tǒng)可以應(yīng)用于門禁系統(tǒng),網(wǎng)絡(luò)安全,認(rèn)證,智能機(jī)器人,動(dòng)物語音識(shí)別,電子商務(wù)和智能交通等領(lǐng)域。在智能交通領(lǐng)域,利用來自車輛識(shí)別模型的運(yùn)動(dòng)音頻信號(hào),可以實(shí)現(xiàn)交通信息的智能化管理。在智能機(jī)器人領(lǐng)域,機(jī)器人目標(biāo)聲音識(shí)別系統(tǒng)可以作為機(jī)器人的耳朵,通過環(huán)境聲音識(shí)別并確定聲音的方位,然后再反應(yīng)外界的聲音,因此可以將其當(dāng)作家庭自動(dòng)化服務(wù)系統(tǒng)和安全系統(tǒng)。在動(dòng)物的語音識(shí)別領(lǐng)域,可以根據(jù)害蟲聲特征來區(qū)分害蟲種類,根據(jù)不同的害蟲采取不同的措施。在網(wǎng)絡(luò)應(yīng)用領(lǐng)域,在關(guān)于各種在線服務(wù)支持的語音識(shí)別技術(shù)新項(xiàng)目開發(fā)中,可以提高網(wǎng)絡(luò)的服務(wù)質(zhì)量,給人們的生活帶來方便。現(xiàn)在,美國,德國和日本都開了電話銀行,語音代替原來的密碼和使用印章,簡(jiǎn)化了工作服務(wù)流程,提高工作效率。
在軍事上,目標(biāo)聲音識(shí)別技術(shù)來自于第二次世界大戰(zhàn),在探測(cè)敵人的炮火和潛艇時(shí),起著重要的識(shí)別和定位作用。但由于計(jì)算機(jī)技術(shù),信號(hào)處理技術(shù),光電檢測(cè)和雷達(dá)檢測(cè)技術(shù)快速的發(fā)展,使聲探測(cè)技術(shù)發(fā)展得十分緩慢。直到現(xiàn)代的戰(zhàn)爭(zhēng),研發(fā)了使用于戰(zhàn)爭(zhēng)中的三維信息,全方位定向,反欺詐、欺騙、干擾和反偵察、監(jiān)視,在隱身與反隱身的現(xiàn)代戰(zhàn)爭(zhēng)中為國家的國防事業(yè)做出了不可磨滅的杰出貢獻(xiàn)。通過電,磁,光學(xué)和雷達(dá)探測(cè)技術(shù)和主動(dòng)檢測(cè)技術(shù)來完成偵察任務(wù)已經(jīng)不能滿足現(xiàn)代戰(zhàn)爭(zhēng)的需求。在武裝直升機(jī)技術(shù)成熟的當(dāng)代,隱形轟炸機(jī)和其他高科技武器都有了反射功率,抗電磁干擾,反輻射的功能,特別是快速發(fā)展的數(shù)字技術(shù)和計(jì)算機(jī)技術(shù),迫使各國為了實(shí)現(xiàn)對(duì)目標(biāo)的定位跟蹤和噪聲識(shí)別而重新開始研究被動(dòng)聲探測(cè)技術(shù),關(guān)注聲檢測(cè)技術(shù)。在未來戰(zhàn)爭(zhēng)中,武器裝備發(fā)展的一個(gè)重要趨勢(shì)是智能化、小型化,一個(gè)重要的特點(diǎn)是具備目標(biāo)識(shí)別的能力,并根據(jù)不同的對(duì)象使用不同的攻擊方法。
2聽覺系統(tǒng)
為了設(shè)計(jì)一個(gè)更精確的目標(biāo)聲音識(shí)別系統(tǒng),越來越多的學(xué)者開始深入研究仿生學(xué)領(lǐng)域。通過研究發(fā)現(xiàn),人類的聽覺系統(tǒng)在聲音的物理方面具有獨(dú)特的優(yōu)勢(shì),聲音特征可以準(zhǔn)確提取目標(biāo)識(shí)別中聲音的方向,種類和含量,而且還可以提高抗噪聲能力,所以基于人基于語音識(shí)別技術(shù)的聽覺系統(tǒng)已經(jīng)成為目前的研究熱點(diǎn)。
人類聽覺仿生學(xué)是模仿人耳的聽覺系統(tǒng)和生理功能,并通過建立數(shù)學(xué)模型,根據(jù)數(shù)學(xué)分析原理得到的聽覺系統(tǒng)。它涉及聲學(xué),生理學(xué),信號(hào)處理,模式識(shí)別和人工智能等學(xué)科,是一個(gè)跨學(xué)科研究領(lǐng)域的綜合應(yīng)用。該技術(shù)已在軍事,交通,銀行,醫(yī)療治療的許多方面取得了重要應(yīng)用,是人類實(shí)現(xiàn)智能生命的重要研究課題之一。
人類聽覺系統(tǒng)的處理能力大大超過目前的聲音信號(hào)處理水平。從人類聽覺系統(tǒng)的心理和生理特點(diǎn)視角,許多研究人員對(duì)接聽過程中的語音識(shí)別進(jìn)行深入的研究。目前,許多學(xué)者提出了不同的聽覺模型,這些模型大多是一些基于語音識(shí)別和語音質(zhì)量評(píng)價(jià)系統(tǒng)的聽覺模型,模擬人耳聽覺功能的生理結(jié)構(gòu),這些應(yīng)用處理方法大大提高了系統(tǒng)的性能。