日本黄色一级经典视频|伊人久久精品视频|亚洲黄色色周成人视频九九九|av免费网址黄色小短片|黄色Av无码亚洲成年人|亚洲1区2区3区无码|真人黄片免费观看|无码一级小说欧美日免费三级|日韩中文字幕91在线看|精品久久久无码中文字幕边打电话

當前位置:首頁 > 智能硬件 > 人工智能AI
[導讀]   今天,我們就為大家從技術上揭秘科大訊飛的新一代語音識別系統(tǒng)。   眾所周知,自2011年微軟研究院首次利用深度神經(jīng)網(wǎng)絡(Deep Neural Network, DNN)在大規(guī)模語音

  今天,我們就為大家從技術上揭秘科大訊飛的新一代語音識別系統(tǒng)。

  眾所周知,自2011年微軟研究院首次利用深度神經(jīng)網(wǎng)絡(Deep Neural Network, DNN)在大規(guī)模語音識別任務上獲得顯著效果提升以來,DNN在語音識別領域受到越來越多的關注,目前已經(jīng)成為主流語音識別系統(tǒng)的標配。然而,更深入的研究成果表明,DNN結構雖然具有很強的分類能力,但是其針對上下文時序信息的捕捉能力是較弱的,因此并不適合處理具有長時相關性的時序信號。而語音是一種各幀之間具有很強相關性的復雜時變信號,這種相關性主要體現(xiàn)在說話時的協(xié)同發(fā)音現(xiàn)象上,往往前后好幾個字對我們正要說的字都有影響,也就是語音的各幀之間具有長時相關性。

  

  圖1:DNN和RNN示意圖

  相比前饋型神經(jīng)網(wǎng)絡DNN,循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Network, RNN)在隱層上增加了一個反饋連接,也就是說,RNN隱層當前時刻的輸入有一部分是前一時刻的隱層輸出,這使得RNN可以通過循環(huán)反饋連接看到前面所有時刻的信息,這賦予了RNN記憶功能,如圖1所示。這些特點使得RNN非常適合用于對時序信號的建模,在語音識別領域,RNN是一個近年來替換DNN的新的深度學習框架,而長短時記憶模塊(Long-Short Term Memory, LSTM)的引入解決了傳統(tǒng)簡單RNN梯度消失等問題,使得RNN框架可以在語音識別領域實用化并獲得了超越DNN的效果,目前已經(jīng)在業(yè)界一些比較先進的語音系統(tǒng)中使用。

  除此之外,研究人員還在RNN的基礎上做了進一步改進工作,圖2是當前語音識別中的主流RNN聲學模型框架,主要還包含兩部分:深層雙向LSTM RNN和CTC(ConnecTIonist Temporal ClassificaTIon)輸出層。其中雙向RNN對當前語音幀進行判斷時,不僅可以利用歷史的語音信息,還可以利用未來的語音信息,可以進行更加準確的決策;CTC使得訓練過程無需幀級別的標注,實現(xiàn)有效的“端對端”訓練。

  

  圖2:基于LSTM RNN的主流聲學模型框架

  目前,國際國內已經(jīng)有不少學術或工業(yè)機構掌握了RNN模型,并在上述某個或多個技術點進行研究。然而,上述各個技術點單獨研究時一般可以獲得較好的結果,但是如果想將這些技術點融合在一起的時候,則會碰到一些問題。例如,多個技術結合在一起的提升幅度會比各個技術點幅度的疊加要小。又例如,傳統(tǒng)的雙向RNN方案,理論上需要看到語音的結束(即所有的未來信息),才能成功的應用未來信息來獲得提升,因此只適合處理離線任務,而對于要求即時響應的在線任務(例如語音輸入法)則往往會帶來3-5s的硬延遲,這對于在線任務是不可接受的。再者,RNN對上下文相關性的擬合較強,相對于DNN更容易陷入過擬合的問題,容易因為訓練數(shù)據(jù)的局部不魯棒現(xiàn)象而帶來額外的異常識別錯誤。最后,由于RNN具有比DNN更加復雜的結構,給海量數(shù)據(jù)下的RNN模型訓練帶來了更大的挑戰(zhàn)。

  鑒于上述問題,科大訊飛發(fā)明了一種名為前饋型序列記憶網(wǎng)絡FSMN(Feed-forward SequenTIal Memory Network)的新框架。在這個框架中,可以把上述幾點很好的融合,同時各個技術點對效果的提升可以獲得疊加。值得一提的是,我們在這個系統(tǒng)中創(chuàng)造性提出的FSMN結構,采用非循環(huán)的前饋結構,在只需要180ms延遲下,就達到了和雙向LSTM RNN相當?shù)男Ч?。下面讓我們來具體看下它的構成。

  

  圖3:FSMN結構示意圖

  

  圖4:FSMN中隱層記憶塊的時序展開示意圖(左右各看一幀)

  圖3即為FSMN的結構示意圖,相比傳統(tǒng)的DNN,我們在隱層旁增加了一個稱為“記憶塊”的模塊,用于存儲對判斷當前語音幀有用的歷史信息和未來信息。圖4畫出了雙向FSMN中記憶塊左右各記憶一幀語音信息(在實際任務中,可根據(jù)任務需要,人工調整所需記憶的歷史和未來信息長度)的時序展開結構。

  從圖中我們可以看出,不同于傳統(tǒng)的基于循環(huán)反饋的RNN,F(xiàn)SMN記憶塊的記憶功能是使用前饋結構實現(xiàn)的。這種前饋結構有兩大好處:首先,雙向FSMN對未來信息進行記憶時,沒有傳統(tǒng)雙向RNN必須等待語音輸入結束才能對當前語音幀進行判斷的限制,它只需要等待有限長度的未來語音幀即可,正如前文所說的,我們的雙向FSMN在將延遲控制在180ms的情況下就可獲得媲美雙向RNN的效果;其次,如前所述,傳統(tǒng)的簡單RNN因為訓練過程中的梯度是按時間逐次往前傳播的,因此會出現(xiàn)指數(shù)衰減的梯度消失現(xiàn)象,這導致理論上具有無限長記憶的RNN實際上能記住的信息很有限,然而FSMN這種基于前饋時序展開結構的記憶網(wǎng)絡,在訓練過程中梯度沿著圖4中記憶塊與隱層的連接權重往回傳給各個時刻即可,這些連接權重決定了不同時刻輸入對判斷當前語音幀的影響,而且這種梯度傳播在任何時刻的衰減都是常數(shù)的,也是可訓練的,因此FSMN用一種更為簡單的方式解決了RNN中的梯度消失問題,使得其具有類似LSTM的長時記憶能力。

  另外,在模型訓練效率和穩(wěn)定性方面,由于FSMN完全基于前饋神經(jīng)網(wǎng)絡,所以不存在RNN訓練中因mini-batch中句子長短不一需要補零而導致浪費運算的情況,前饋結構也使得它的并行度更高,可最大化利用GPU計算能力。從最終訓練收斂的雙向FSMN模型記憶塊中各時刻的加權系數(shù)分布我們觀察到,權重值基本上在當前時刻最大,往左右兩邊逐漸衰減,這也符合預期。進一步,F(xiàn)SMN可和CTC準則結合,實現(xiàn)語音識別中的“端到端”建模。

  最后,和其他多個技術點結合后,訊飛基于FSMN的語音識別框架可獲得相比業(yè)界最好的語音識別系統(tǒng)40%的性能提升,同時結合我們的多GPU并行加速技術,訓練效率可達到一萬小時訓練數(shù)據(jù)一天可訓練收斂。后續(xù)基于FSMN框架,我們還將展開更多相關的研究工作,例如:DNN和記憶塊更深層次的組合方式,增加記憶塊部分復雜度強化記憶功能,F(xiàn)SMN結構和CNN等其他結構的更深度融合等。在這些核心技術持續(xù)進步的基礎上,科大訊飛的語音識別系統(tǒng)將不斷挑戰(zhàn)新的高峰!

本站聲明: 本文章由作者或相關機構授權發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內容真實性等。需要轉載請聯(lián)系該專欄作者,如若文章內容侵犯您的權益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

LED驅動電源的輸入包括高壓工頻交流(即市電)、低壓直流、高壓直流、低壓高頻交流(如電子變壓器的輸出)等。

關鍵字: 驅動電源

在工業(yè)自動化蓬勃發(fā)展的當下,工業(yè)電機作為核心動力設備,其驅動電源的性能直接關系到整個系統(tǒng)的穩(wěn)定性和可靠性。其中,反電動勢抑制與過流保護是驅動電源設計中至關重要的兩個環(huán)節(jié),集成化方案的設計成為提升電機驅動性能的關鍵。

關鍵字: 工業(yè)電機 驅動電源

LED 驅動電源作為 LED 照明系統(tǒng)的 “心臟”,其穩(wěn)定性直接決定了整個照明設備的使用壽命。然而,在實際應用中,LED 驅動電源易損壞的問題卻十分常見,不僅增加了維護成本,還影響了用戶體驗。要解決這一問題,需從設計、生...

關鍵字: 驅動電源 照明系統(tǒng) 散熱

根據(jù)LED驅動電源的公式,電感內電流波動大小和電感值成反比,輸出紋波和輸出電容值成反比。所以加大電感值和輸出電容值可以減小紋波。

關鍵字: LED 設計 驅動電源

電動汽車(EV)作為新能源汽車的重要代表,正逐漸成為全球汽車產(chǎn)業(yè)的重要發(fā)展方向。電動汽車的核心技術之一是電機驅動控制系統(tǒng),而絕緣柵雙極型晶體管(IGBT)作為電機驅動系統(tǒng)中的關鍵元件,其性能直接影響到電動汽車的動力性能和...

關鍵字: 電動汽車 新能源 驅動電源

在現(xiàn)代城市建設中,街道及停車場照明作為基礎設施的重要組成部分,其質量和效率直接關系到城市的公共安全、居民生活質量和能源利用效率。隨著科技的進步,高亮度白光發(fā)光二極管(LED)因其獨特的優(yōu)勢逐漸取代傳統(tǒng)光源,成為大功率區(qū)域...

關鍵字: 發(fā)光二極管 驅動電源 LED

LED通用照明設計工程師會遇到許多挑戰(zhàn),如功率密度、功率因數(shù)校正(PFC)、空間受限和可靠性等。

關鍵字: LED 驅動電源 功率因數(shù)校正

在LED照明技術日益普及的今天,LED驅動電源的電磁干擾(EMI)問題成為了一個不可忽視的挑戰(zhàn)。電磁干擾不僅會影響LED燈具的正常工作,還可能對周圍電子設備造成不利影響,甚至引發(fā)系統(tǒng)故障。因此,采取有效的硬件措施來解決L...

關鍵字: LED照明技術 電磁干擾 驅動電源

開關電源具有效率高的特性,而且開關電源的變壓器體積比串聯(lián)穩(wěn)壓型電源的要小得多,電源電路比較整潔,整機重量也有所下降,所以,現(xiàn)在的LED驅動電源

關鍵字: LED 驅動電源 開關電源

LED驅動電源是把電源供應轉換為特定的電壓電流以驅動LED發(fā)光的電壓轉換器,通常情況下:LED驅動電源的輸入包括高壓工頻交流(即市電)、低壓直流、高壓直流、低壓高頻交流(如電子變壓器的輸出)等。

關鍵字: LED 隧道燈 驅動電源
關閉