『壹』 淺談語音識別技術論文
語音識別技術研究讓人更加方便地享受到更多的社會信息資源和現代化服務,對任何事都能夠通過語音交互的方式。 我整理了淺談語音識別技術論文,歡迎閱讀!
淺談語音識別技術論文篇一
語音識別技術概述
作者:劉鈺 馬艷麗 董蓓蓓
摘要:本文簡要介紹了語音識別技術理論基礎及分類方式,所採用的關鍵技術以及所面臨的困難與挑戰,最後討論了語音識別技術的 發展 前景和應用。
關鍵詞:語音識別;特徵提取;模式匹配;模型訓練
Abstract:This text briefly introces the theoretical basis of the speech-identification technology,its mode of classification,the adopted key technique and the difficulties and challenges it have to face.Then,the developing prospect ion and application of the speech-identification technology are discussed in the last part.
Keywords:Speech identification;Character Pick-up;Mode matching;Model training
一、語音識別技術的理論基礎
語音識別技術:是讓機器通過識別和理解過程把語音信號轉變為相應的文本或命令的高級技術。語音識別以語音為研究對象,它是語音信號處理的一個重要研究方向,是模式識別的一個分支,涉及到生 理學 、心理學、語言學、 計算 機 科學 以及信號處理等諸多領域,甚至還涉及到人的體態語言(如人在說話時的表情、手勢等行為動作可幫助對方理解),其最終目標是實現人與機器進行 自然 語言通信。
不同的語音識別系統,雖然具體實現細節有所不同,但所採用的基本技術相似,一個典型語音識別系統主要包括特徵提取技術、模式匹配准則及模型訓練技術三個方面。此外,還涉及到語音識別單元的選取。
(一) 語音識別單元的選取
選擇識別單元是語音識別研究的第一步。語音識別單元有單詞(句)、音節和音素三種,具體選擇哪一種,由具體的研究任務決定。
單詞(句)單元廣泛應用於中小詞彙語音識別系統,但不適合大詞彙系統,原因在於模型庫太龐大,訓練模型任務繁重,模型匹配演算法復雜,難以滿足實時性要求。
音節單元多見於漢語語音識別,主要因為漢語是單音節結構的語言,而 英語 是多音節,並且漢語雖然有大約1300個音節,但若不考慮聲調,約有408個無調音節,數量相對較少。因此,對於中、大詞彙量漢語語音識別系統來說,以音節為識別單元基本是可行的。
音素單元以前多見於英語語音識別的研究中,但目前中、大詞彙量漢語語音識別系統也在越來越多地採用。原因在於漢語音節僅由聲母(包括零聲母有22個)和韻母(共有28個)構成,且聲韻母聲學特性相差很大。實際應用中常把聲母依後續韻母的不同而構成細化聲母,這樣雖然增加了模型數目,但提高了易混淆音節的區分能力。由於協同發音的影響,音素單元不穩定,所以如何獲得穩定的音素單元,還有待研究。
(二) 特徵參數提取技術
語音信號中含有豐富的信息,但如何從中提取出對語音識別有用的信息呢?特徵提取就是完成這項工作,它對語音信號進行分析處理,去除對語音識別無關緊要的冗餘信息,獲得影響語音識別的重要信息。對於非特定人語音識別來講,希望特徵參數盡可能多的反映語義信息,盡量減少說話人的個人信息(對特定人語音識別來講,則相反)。從資訊理論角度講,這是信息壓縮的過程。
線性預測(LP)分析技術是目前應用廣泛的特徵參數提取技術,許多成功的應用系統都採用基於LP技術提取的倒譜參數。但線性預測模型是純數學模型,沒有考慮人類聽覺系統對語音的處理特點。
Mel參數和基於感知線性預測(PLP)分析提取的感知線性預測倒譜,在一定程度上模擬了人耳對語音的處理特點,應用了人耳聽覺感知方面的一些研究成果。實驗證明,採用這種技術,語音識別系統的性能有一定提高。
也有研究者嘗試把小波分析技術應用於特徵提取,但目前性能難以與上述技術相比,有待進一步研究。
(三)模式匹配及模型訓練技術
模型訓練是指按照一定的准則,從大量已知模式中獲取表徵該模式本質特徵的模型參數,而模式匹配則是根據一定準則,使未知模式與模型庫中的某一個模型獲得最佳匹配。
語音識別所應用的模式匹配和模型訓練技術主要有動態時間歸正技術(DTW)、隱馬爾可夫模型(HMM)和人工神經元 網路 (ANN)。
DTW是較早的一種模式匹配和模型訓練技術,它應用動態規劃方法成功解決了語音信號特徵參數序列比較時時長不等的難題,在孤立詞語音識別中獲得了良好性能。但因其不適合連續語音大詞彙量語音識別系統,目前已被HMM模型和ANN替代。
HMM模型是語音信號時變特徵的有參表示法。它由相互關聯的兩個隨機過程共同描述信號的統計特性,其中一個是隱蔽的(不可觀測的)具有有限狀態的Markor鏈,另一個是與Markor鏈的每一狀態相關聯的觀察矢量的隨機過程(可觀測的)。隱蔽Markor鏈的特徵要靠可觀測到的信號特徵揭示。這樣,語音等時變信號某一段的特徵就由對應狀態觀察符號的隨機過程描述,而信號隨時間的變化由隱蔽Markor鏈的轉移概率描述。模型參數包括HMM拓撲結構、狀態轉移概率及描述觀察符號統計特性的一組隨機函數。按照隨機函數的特點,HMM模型可分為離散隱馬爾可夫模型(採用離散概率密度函數,簡稱DHMM)和連續隱馬爾可夫模型(採用連續概率密度函數,簡稱CHMM)以及半連續隱馬爾可夫模型(SCHMM,集DHMM和CHMM特點)。一般來講,在訓練數據足夠的,CHMM優於DHMM和SCHMM。HMM模型的訓練和識別都已研究出有效的演算法,並不斷被完善,以增強HMM模型的魯棒性。
人工神經元 網路 在語音識別中的 應用是現在研究的又一 熱點。ANN本質上是一個自適應非線性動力學系統,模擬了人類神經元活動的原理,具有自學、聯想、對比、推理和概括能力。這些能力是HMM模型不具備的,但ANN又不個有HMM模型的動態時間歸正性能。因此,現在已有人研究如何把二者的優點有機結合起來,從而提高整個模型的魯棒性。
二、語音識別的困難與對策
目前,語音識別方面的困難主要表現在:
(一)語音識別系統的適應性差,主要體現在對環境依賴性強,即在某種環境下採集到的語音訓練系統只能在這種環境下應用,否則系統性能將急劇下降;另外一個問題是對用戶的錯誤輸入不能正確響應,使用不方便。
(二)高雜訊環境下語音識別進展困難,因為此時人的發音變化很大,像聲音變高,語速變慢,音調及共振峰變化等等,這就是所謂Lombard效應,必須尋找新的信號分析處理方法。
(三)語言學、生 理學 、心理學方面的研究成果已有不少,但如何把這些知識量化、建模並用於語音識別,還需研究。而語言模型、語法及詞法模型在中、大詞彙量連續語音識別中是非常重要的。
(四)我們對人類的聽覺理解、知識積累和學習機制以及大腦神經系統的控制機理等分面的認識還很不清楚;其次,把這方面的現有成果用於語音識別,還有一個艱難的過程。
(五)語音識別系統從實驗室演示系統到商品的轉化過程中還有許多具體問題需要解決,識別速度、拒識問題以及關鍵詞(句)檢測技術等等技術細節要解決。
三、語音識別技術的前景和應用
語音識別技術 發展 到今天,特別是中小詞彙量非特定人語音識別系統識別精度已經大於98%,對特定人語音識別系統的識別精度就更高。這些技術已經能夠滿足通常應用的要求。由於大規模集成電路技術的發展,這些復雜的語音識別系統也已經完全可以製成專用晶元,大量生產。在西方 經濟 發達國家,大量的語音識別產品已經進入市場和服務領域。一些用戶交機、電話機、手機已經包含了語音識別撥號功能,還有語音記事本、語音智能玩具等產品也包括語音識別與語音合成功能。人們可以通過電話網路用語音識別口語對話系統查詢有關的機票、 旅遊 、銀行信息,並且取得很好的結果。
語音識別是一門交叉學科,語音識別正逐步成為信息技術中人機介面的關鍵技術,語音識別技術與語音合成技術結合使人們能夠甩掉鍵盤,通過語音命令進行操作。語音技術的應用已經成為一個具有競爭性的新興高技術產業。
參考 文獻 :
[1]科大訊飛語音識別技術專欄. 語音識別產業的新發展. 企業 專欄.通訊世界,2007.2:(總l12期)
[2]任天平,門茂深.語音識別技術應用的進展.科技廣場.河南科技,2005.2:19-20
[3]俞鐵城.科大訊飛語音識別技術專欄.語音識別的發展現狀.企業專欄.通訊世界,2006.2 (總122期)
[4]陳尚勤等.近代語音識別.西安: 電子 科技大學出版社,1991
[5]王炳錫等.實用語音識別基礎.Practical Fundamentals of Speech Recognition.北京:國防 工業 出版社,2005
[6](美)L.羅賓納.語音識別基本原理.北京:清華大學出版社,1999
點擊下頁還有更多>>>淺談語音識別技術論文
『貳』 如何選擇語音識別晶元,有什麼好推薦的嗎
看你是用在什麼產品上,如果像家裡的小台燈就可以用NRK10這款離線的語音識別晶元。指令是固定的,成本低識別率在一定范圍內也高。
『叄』 如何設置和使用Windows10語音識別
讓小娜啟動語音識別設置向導,完成設置
1,在小娜框里輸入「語音識別」,啟動小娜匹配的「Windows 語音識別」桌面應用。「設置語音識別」的向導將被打開,點擊「下一步」繼續。
啟動並使用語音識別:
語音識別設置完成後,即可隨時啟動語音識別,可以使用語音向計算機發出指令,也可以在文字錄入界面使用語音錄入文字。
可以在小娜中輸入「語音識別」啟動,也可以到控制面板中點擊「啟動語音識別」啟動,相關圖形界面請參考前面步驟欄目中的截圖。
語音識別啟動後,屏幕頂端將會出現語音操控的面板,點擊左側麥克風按鈕開始語音聆聽;點擊右側「x」號關閉語音識別。
『肆』 電腦語音識別怎麼打開
具體操作步驟:
1、打開控制面板,找到裡面的「語音識別」;
2、選擇開始語音識別;
3、在語音識別設置裡面點擊下一步繼續。
『伍』 蘋果手機的語音識別怎麼設置
你是要設置Siri嗎,如果是的話請往下看,操作非常簡單,就不配圖啦。
1.進入手機「設置」界面,點擊並進入「通用」選項。
2.我們在「通用」界面中,選擇並點擊「Siri」。
3.這樣,我們可以在「Siri」設置界面,通過滑動開啟「允許『Hey Siri』」功能。
『陸』 Win7如何啟用與配置語音識別
啟用語音識別
第一步:首先進入「控制面板」,把查看方式設置為「小圖標」,然後進入「語音識別」選項,這里列舉著語音控制方面的所有項目。我們可以首先單擊「打開語音參考卡片」,在Windows幫助中來了解給計算機下達指令的標准語法。
●查看詳細的語音命令
第二步:接下來我們選擇「啟動語音識別」開始進行語音設置,其中的步驟大多數都選擇「下一步」,不過最好對每一項設置的具體介紹進行詳細的查看,不建議大家開啟「文檔審閱」功能。接下來單擊「高級語音選項」按鈕,在「用戶設置」下選擇「啟動時運行語音識別」,可讓語音識別功能隨著系統的啟動而開啟,這樣使用更加方便。
●啟用語音識別功能
●配置語音識別
第三步:當設置結束後,系統會提示你學習交互語音識別教程,也就是學習如何使用各種規范指令控制計算機。強烈建議大家進行學習,這樣不但可以讓計算機更能聽懂你的話,而且還能學習各種語音控制指令,學習主要內容在「語音參考卡片」中可以查閱。
●開始語音識別教程
語音訓練很有必要
如果在語音控制計算機時,計算機不聽指令,可單擊「訓練您的計算機以使其更了解您」,進行語音訓練。如果你的普通話夠標準的話,以後就可以使用語音輸入文本,識別率還是蠻高的。
其實Win7的語音識別操作並不難,只是需要加強前期的識別訓練,提高識別率,以後就可以躺在床上控制電腦了。
如何退出語音識別
如果你不想使用語音功能了,可以將其關閉。具體的操作是在控制面板的「語音識別」選項中,點擊「高級語音選項」,去掉「啟動時運行語音識別」前的勾,下一次啟動電腦時就不會啟動語音識別功能了。
●禁止開機運行即可關閉
體驗語音識別
●語音輸入文字
設置完成之後,我們就可以來使用這一功能。我們啟用了語音識別功能之後,會看見在屏幕的正上方出現一個語音識別的界面,左邊的一個麥克風裝的按鈕,如果顯示為「深藍色」,文字提示為「正在休眠」,我們需要單擊這個按鈕,讓其狀態變成「正在聆聽」,這時候就可以開始語音命令操作,比如打開一個寫字板,就可以通過語音來輸入文字。當然,剛開始時,識別率還很低,隨著使用次數的增加,會自動提供識別率和錄
入速度。其他更加詳細的操作命令,在前面的語音幫助文件中已經介紹得很清楚了,這里不再重復。
●任務欄按鈕操作
『柒』 目前北京校區有關於青少年學習人工智慧語音識別選的創作課程,這一類課程是培養孩子哪方面的能力
時代快速發展,國務院出台《新一代人工智慧發展規劃》,要求在中小學階段設置人工智慧相關課程、逐步推廣編程教育。支持開展人工智慧競賽,鼓勵進行形式多樣的人工智慧科普創作。可以選擇威盛創造栗的語音識別創作套裝,創造栗產品的培養目標就是讓孩子們,可以掌握人工智慧語音識別應用和技術知識,製作具有人工智慧語音識別功能的完整作品。具備參加國內外科技創新/人工智慧賽事的資格與能力,還有掌握人工智慧軟硬體知識,培養邏輯思維、編程思維與創新思維,提升青少年動手實踐能力與解決問題的能力。