日本黄色一级经典视频|伊人久久精品视频|亚洲黄色色周成人视频九九九|av免费网址黄色小短片|黄色Av无码亚洲成年人|亚洲1区2区3区无码|真人黄片免费观看|无码一级小说欧美日免费三级|日韩中文字幕91在线看|精品久久久无码中文字幕边打电话

當(dāng)前位置:首頁 > 智能硬件 > 人工智能AI
[導(dǎo)讀]   作為一種人機(jī)交互的手段,語音的端點(diǎn)檢測(cè)在解放人類雙手方面意義重大。同時(shí),工作環(huán)境存在著各種各樣的背景噪聲,這些噪聲會(huì)嚴(yán)重降低語音的質(zhì)量從而影響語音應(yīng)用的效果,比如會(huì)降低識(shí)別率。未經(jīng)壓縮的語音

  作為一種人機(jī)交互的手段,語音的端點(diǎn)檢測(cè)在解放人類雙手方面意義重大。同時(shí),工作環(huán)境存在著各種各樣的背景噪聲,這些噪聲會(huì)嚴(yán)重降低語音的質(zhì)量從而影響語音應(yīng)用的效果,比如會(huì)降低識(shí)別率。未經(jīng)壓縮的語音數(shù)據(jù),網(wǎng)絡(luò)交互應(yīng)用中的網(wǎng)絡(luò)流量偏大,從而降低語音應(yīng)用的成功率。因此,音頻的端點(diǎn)檢測(cè)、降噪和音頻壓縮始終是終端語音處理關(guān)注的重點(diǎn),目前仍是活躍的研究主題。

  為了能和您一起了解端點(diǎn)檢測(cè)和降噪的基本原理,帶您一起一窺音頻壓縮的奧秘,科大訊飛資深研發(fā)工程師李洪亮將為我們?cè)斀庹Z音處理檢測(cè)技術(shù)中的熱點(diǎn)——端點(diǎn)檢測(cè)、降噪和壓縮 。

  ▎端點(diǎn)檢測(cè)

  首先來看端點(diǎn)檢測(cè)(Voice AcTIvity DetecTIon, VAD)。音頻端點(diǎn)檢測(cè)就是從連續(xù)的語音流中檢測(cè)出有效的語音段。它包括兩個(gè)方面,檢測(cè)出有效語音的起始點(diǎn)即前端點(diǎn),檢測(cè)出有效語音的結(jié)束點(diǎn)即后端點(diǎn)。

  在語音應(yīng)用中進(jìn)行語音的端點(diǎn)檢測(cè)是很必要的,首先很簡(jiǎn)單的一點(diǎn),就是在存儲(chǔ)或傳輸語音的場(chǎng)景下,從連續(xù)的語音流中分離出有效語音,可以降低存儲(chǔ)或傳輸?shù)臄?shù)據(jù)量。其次是在有些應(yīng)用場(chǎng)景中,使用端點(diǎn)檢測(cè)可以簡(jiǎn)化人機(jī)交互,比如在錄音的場(chǎng)景中,語音后端點(diǎn)檢測(cè)可以省略結(jié)束錄音的操作。

  

  為了能更清楚說明端點(diǎn)檢測(cè)的原理,先來分析一段音頻。上圖是一段只有兩個(gè)字的簡(jiǎn)單音頻,從圖上可以很直觀的看出,首尾的靜音部分聲波的振幅很小,而有效語音部分的振幅比較大,一個(gè)信號(hào)的振幅從直觀上表示了信號(hào)能量的大小:靜音部分能量值較小,有效語音部分的能量值較大。語音信號(hào)是一個(gè)以時(shí)間為自變量的一維連續(xù)函數(shù),計(jì)算機(jī)處理的語音數(shù)據(jù)是語音信號(hào)按時(shí)間排序的采樣值序列,這些采樣值的大小同樣表示了語音信號(hào)在采樣點(diǎn)處的能量。

  

  采樣值中有正值和負(fù)值,計(jì)算能量值時(shí)不需要考慮正負(fù)號(hào),從這個(gè)意義上看,使用采樣值的絕對(duì)值來表示能量值是自然而然的想法,由于絕對(duì)值符號(hào)在數(shù)學(xué)處理上不方便,所以采樣點(diǎn)的能量值通常使用采樣值的平方,一段包含N個(gè)采樣點(diǎn)的語音的能量值可以定義為其中各采樣值的平方和。

  這樣,一段語音的能量值既與其中的采樣值大小有關(guān),又與其中包含的采樣點(diǎn)數(shù)量有關(guān)。為了考察語音能量值的變化,需要先將語音信號(hào)按照固定時(shí)長(zhǎng)比如20毫秒進(jìn)行分割,每個(gè)分割單元稱為幀,每幀中包含數(shù)量相同的采樣點(diǎn),然后計(jì)算每幀語音的能量值。

  如果音頻前面部分連續(xù)M0幀的能量值低于一個(gè)事先指定的能量值閾值E0,接下來的連續(xù)M0幀能量值大于E0,則在語音能量值增大的地方就是語音的前端點(diǎn)。同樣的,如果連續(xù)的若干幀語音能量值較大,隨后的幀能量值變小,并且持續(xù)一定的時(shí)長(zhǎng),可以認(rèn)為在能量值減小的地方即是語音的后端點(diǎn)。

  現(xiàn)在的問題是,能量值閾值E0怎么取?M0又是多少?理想的靜音能量值為0,故上面算法中的E0理想狀態(tài)下取0。不幸的是,采集音頻的場(chǎng)景中往往有一定強(qiáng)度的背景音,這種單純的背景音當(dāng)然算靜音,但其能量值顯然不為0,因此,實(shí)際采集到的音頻其背景音通常有一定的基礎(chǔ)能量值。

  我們總是假設(shè)采集到的音頻在起始處有一小段靜音,長(zhǎng)度一般為幾百毫秒,這一小段靜音是我們估計(jì)閾值E0的基礎(chǔ)。對(duì),總是假設(shè)音頻起始處的一小段語音是靜音,這一點(diǎn)假設(shè)非常重要?。。?!在隨后的降噪介紹中也要用到這一假設(shè)。在估計(jì)E0時(shí),選取一定數(shù)量的幀比如前100幀語音數(shù)據(jù)(這些是“靜音”),計(jì)算其平均能量值,然后加上一個(gè)經(jīng)驗(yàn)值或乘以一個(gè)大于1的系數(shù),由此得到E0。這個(gè)E0就是我們判斷一幀語音是否是靜音的基準(zhǔn),大于這個(gè)值就是有效語音,小于這個(gè)值就是靜音。

  至于M0,比較容易理解,其大小決定了端點(diǎn)檢測(cè)的靈敏度,M0越小,端點(diǎn)檢測(cè)的靈敏度越高,反之越低。語音應(yīng)用的場(chǎng)景不同,端點(diǎn)檢測(cè)的靈敏度也應(yīng)該被設(shè)置為不同的值。例如,在聲控遙控器的應(yīng)用中,由于語音指令一般都是簡(jiǎn)單的控制指令,中間出現(xiàn)逗號(hào)或句號(hào)等較長(zhǎng)停頓的可能性很小,所以提高端點(diǎn)檢測(cè)的靈敏度是合理的,M0設(shè)置為較小值,對(duì)應(yīng)的音頻時(shí)長(zhǎng)一般為200-400毫秒左右。在大段的語音聽寫應(yīng)用中,由于中間會(huì)出現(xiàn)逗號(hào)或句號(hào)等較長(zhǎng)時(shí)間的停頓,宜將端點(diǎn)檢測(cè)的靈敏度降低,此時(shí)M0值設(shè)置為較大值,對(duì)應(yīng)的音頻時(shí)長(zhǎng)一般為1500-3000毫秒。所以M0的值,也就是端點(diǎn)檢測(cè)的靈敏度,在實(shí)際中應(yīng)該做成可調(diào)整的,它的取值要根據(jù)語音應(yīng)用的場(chǎng)景來選擇。

  以上只是語音端點(diǎn)檢測(cè)的很簡(jiǎn)單的一般原理,實(shí)際應(yīng)用中的算法遠(yuǎn)比上面講的要復(fù)雜。作為一個(gè)應(yīng)用較廣的語音處理技術(shù),音頻端點(diǎn)檢測(cè)仍然是一個(gè)較為活躍的研究方向??拼笥嶏w已經(jīng)使用循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks, RNN)技術(shù)來進(jìn)行語音的端點(diǎn)檢測(cè),實(shí)際的效果可以關(guān)注訊飛的產(chǎn)品。

本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請(qǐng)聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請(qǐng)及時(shí)聯(lián)系本站刪除。
換一批
延伸閱讀

LED驅(qū)動(dòng)電源的輸入包括高壓工頻交流(即市電)、低壓直流、高壓直流、低壓高頻交流(如電子變壓器的輸出)等。

關(guān)鍵字: 驅(qū)動(dòng)電源

在工業(yè)自動(dòng)化蓬勃發(fā)展的當(dāng)下,工業(yè)電機(jī)作為核心動(dòng)力設(shè)備,其驅(qū)動(dòng)電源的性能直接關(guān)系到整個(gè)系統(tǒng)的穩(wěn)定性和可靠性。其中,反電動(dòng)勢(shì)抑制與過流保護(hù)是驅(qū)動(dòng)電源設(shè)計(jì)中至關(guān)重要的兩個(gè)環(huán)節(jié),集成化方案的設(shè)計(jì)成為提升電機(jī)驅(qū)動(dòng)性能的關(guān)鍵。

關(guān)鍵字: 工業(yè)電機(jī) 驅(qū)動(dòng)電源

LED 驅(qū)動(dòng)電源作為 LED 照明系統(tǒng)的 “心臟”,其穩(wěn)定性直接決定了整個(gè)照明設(shè)備的使用壽命。然而,在實(shí)際應(yīng)用中,LED 驅(qū)動(dòng)電源易損壞的問題卻十分常見,不僅增加了維護(hù)成本,還影響了用戶體驗(yàn)。要解決這一問題,需從設(shè)計(jì)、生...

關(guān)鍵字: 驅(qū)動(dòng)電源 照明系統(tǒng) 散熱

根據(jù)LED驅(qū)動(dòng)電源的公式,電感內(nèi)電流波動(dòng)大小和電感值成反比,輸出紋波和輸出電容值成反比。所以加大電感值和輸出電容值可以減小紋波。

關(guān)鍵字: LED 設(shè)計(jì) 驅(qū)動(dòng)電源

電動(dòng)汽車(EV)作為新能源汽車的重要代表,正逐漸成為全球汽車產(chǎn)業(yè)的重要發(fā)展方向。電動(dòng)汽車的核心技術(shù)之一是電機(jī)驅(qū)動(dòng)控制系統(tǒng),而絕緣柵雙極型晶體管(IGBT)作為電機(jī)驅(qū)動(dòng)系統(tǒng)中的關(guān)鍵元件,其性能直接影響到電動(dòng)汽車的動(dòng)力性能和...

關(guān)鍵字: 電動(dòng)汽車 新能源 驅(qū)動(dòng)電源

在現(xiàn)代城市建設(shè)中,街道及停車場(chǎng)照明作為基礎(chǔ)設(shè)施的重要組成部分,其質(zhì)量和效率直接關(guān)系到城市的公共安全、居民生活質(zhì)量和能源利用效率。隨著科技的進(jìn)步,高亮度白光發(fā)光二極管(LED)因其獨(dú)特的優(yōu)勢(shì)逐漸取代傳統(tǒng)光源,成為大功率區(qū)域...

關(guān)鍵字: 發(fā)光二極管 驅(qū)動(dòng)電源 LED

LED通用照明設(shè)計(jì)工程師會(huì)遇到許多挑戰(zhàn),如功率密度、功率因數(shù)校正(PFC)、空間受限和可靠性等。

關(guān)鍵字: LED 驅(qū)動(dòng)電源 功率因數(shù)校正

在LED照明技術(shù)日益普及的今天,LED驅(qū)動(dòng)電源的電磁干擾(EMI)問題成為了一個(gè)不可忽視的挑戰(zhàn)。電磁干擾不僅會(huì)影響LED燈具的正常工作,還可能對(duì)周圍電子設(shè)備造成不利影響,甚至引發(fā)系統(tǒng)故障。因此,采取有效的硬件措施來解決L...

關(guān)鍵字: LED照明技術(shù) 電磁干擾 驅(qū)動(dòng)電源

開關(guān)電源具有效率高的特性,而且開關(guān)電源的變壓器體積比串聯(lián)穩(wěn)壓型電源的要小得多,電源電路比較整潔,整機(jī)重量也有所下降,所以,現(xiàn)在的LED驅(qū)動(dòng)電源

關(guān)鍵字: LED 驅(qū)動(dòng)電源 開關(guān)電源

LED驅(qū)動(dòng)電源是把電源供應(yīng)轉(zhuǎn)換為特定的電壓電流以驅(qū)動(dòng)LED發(fā)光的電壓轉(zhuǎn)換器,通常情況下:LED驅(qū)動(dòng)電源的輸入包括高壓工頻交流(即市電)、低壓直流、高壓直流、低壓高頻交流(如電子變壓器的輸出)等。

關(guān)鍵字: LED 隧道燈 驅(qū)動(dòng)電源
關(guān)閉