日本黄色一级经典视频|伊人久久精品视频|亚洲黄色色周成人视频九九九|av免费网址黄色小短片|黄色Av无码亚洲成年人|亚洲1区2区3区无码|真人黄片免费观看|无码一级小说欧美日免费三级|日韩中文字幕91在线看|精品久久久无码中文字幕边打电话

當(dāng)前位置:首頁(yè) > 嵌入式 > 嵌入式動(dòng)態(tài)
[導(dǎo)讀]語(yǔ)音識(shí)別是一門(mén)交叉學(xué)科。近二十年來(lái),語(yǔ)音識(shí)別技術(shù)取得顯著進(jìn)步,開(kāi)始從實(shí)驗(yàn)室走向市場(chǎng)。人們預(yù)計(jì),未來(lái)10年內(nèi),語(yǔ)音識(shí)別技術(shù)將進(jìn)入工業(yè)、家電、通信、汽車(chē)電子、醫(yī)療、家庭服務(wù)、消費(fèi)電子產(chǎn)品等各個(gè)領(lǐng)域。 語(yǔ)音識(shí)別聽(tīng)寫(xiě)機(jī)在一些領(lǐng)域的應(yīng)用被美國(guó)新聞界評(píng)為1997年計(jì)算機(jī)發(fā)展十件大事之一。很多專(zhuān)家都認(rèn)為語(yǔ)音識(shí)別技術(shù)是2000年至2010年間信息技術(shù)領(lǐng)域十大重要的科技發(fā)展技術(shù)之一。 語(yǔ)音識(shí)別技術(shù)所涉及的領(lǐng)域包括:信號(hào)處理、模式識(shí)別、概率論和信息論、發(fā)聲機(jī)理和聽(tīng)覺(jué)機(jī)理、人工智能等等。對(duì)語(yǔ)音識(shí)別未來(lái)發(fā)展,各位大咖也有一些精彩

語(yǔ)音識(shí)別是一門(mén)交叉學(xué)科。近二十年來(lái),語(yǔ)音識(shí)別技術(shù)取得顯著進(jìn)步,開(kāi)始從實(shí)驗(yàn)室走向市場(chǎng)。人們預(yù)計(jì),未來(lái)10年內(nèi),語(yǔ)音識(shí)別技術(shù)將進(jìn)入工業(yè)、家電、通信、汽車(chē)電子、醫(yī)療、家庭服務(wù)、消費(fèi)電子產(chǎn)品等各個(gè)領(lǐng)域。 語(yǔ)音識(shí)別聽(tīng)寫(xiě)機(jī)在一些領(lǐng)域的應(yīng)用被美國(guó)新聞界評(píng)為1997年計(jì)算機(jī)發(fā)展十件大事之一。很多專(zhuān)家都認(rèn)為語(yǔ)音識(shí)別技術(shù)是2000年至2010年間信息技術(shù)領(lǐng)域十大重要的科技發(fā)展技術(shù)之一。 語(yǔ)音識(shí)別技術(shù)所涉及的領(lǐng)域包括:信號(hào)處理、模式識(shí)別、概率論和信息論、發(fā)聲機(jī)理和聽(tīng)覺(jué)機(jī)理、人工智能等等。對(duì)語(yǔ)音識(shí)別未來(lái)發(fā)展,各位大咖也有一些精彩論點(diǎn)。

科大訊飛研究院副院長(zhǎng)——王士進(jìn)

王士進(jìn)表示,語(yǔ)音識(shí)別是人機(jī)交互里很重要的模塊,從PC時(shí)代到現(xiàn)在的移動(dòng)互聯(lián)時(shí)代,人機(jī)交互由鼠標(biāo)鍵盤(pán)走向智能手機(jī)、Pad等的多點(diǎn)觸摸。到了智能硬件時(shí)代,交互則更加多元,不僅有觸摸,還有基于語(yǔ)音、視覺(jué)的交互。原本是以機(jī)器為中心的人機(jī)交互,逐漸走向以人為中心的自然交互。

他認(rèn)為,在將來(lái)萬(wàn)物互聯(lián)的浪潮下,以語(yǔ)音為主,鍵盤(pán)、觸摸、視覺(jué)、手勢(shì)為輔的交互時(shí)代很快會(huì)到來(lái)。

提到傳統(tǒng)的語(yǔ)音交互,王士進(jìn)列舉了幾個(gè)缺點(diǎn):第一,交互距離要近;第二,發(fā)音必須標(biāo)準(zhǔn);第三,環(huán)境必須安靜;第四,人機(jī)不能持續(xù)對(duì)話(huà)。

科大訊飛在2015年提出AIUI,旨在解決上述問(wèn)題同時(shí)期望在人工智能時(shí)代提供一種智能的人機(jī)交互界面。AIUI提供遠(yuǎn)場(chǎng)喚醒和識(shí)別降噪方案,兼容全國(guó)近17種方言,可以進(jìn)行全雙工交互和基于業(yè)務(wù)場(chǎng)景的多輪對(duì)話(huà),同時(shí)結(jié)合訊飛超腦的認(rèn)知智能使得機(jī)器進(jìn)行更智能的交互。

AIUI實(shí)現(xiàn)了軟硬一體化、云端一體化、技術(shù)服務(wù)一體化,通過(guò)三個(gè)一體化提供人機(jī)智能交互整體解決方案,使得用戶(hù)可以快速切換到新的業(yè)務(wù)場(chǎng)景。

在提到基于AIUI交互技術(shù)的一些商業(yè)化嘗試時(shí),王士進(jìn)列舉了幾種:

在交流方面,科大訊飛在05年推出了聽(tīng)見(jiàn)智能會(huì)議這款產(chǎn)品。一般來(lái)說(shuō),會(huì)議場(chǎng)景的同傳準(zhǔn)確率為80%左右,而智能會(huì)議轉(zhuǎn)寫(xiě)準(zhǔn)確率則能達(dá)到90%以上,之后,其在醫(yī)療和司法系統(tǒng)進(jìn)行了應(yīng)用。另外,科大訊飛還推出了便攜翻譯機(jī),易于隨身攜帶,方便遠(yuǎn)程實(shí)時(shí)交流。

在電視方面,最早的電視是用數(shù)字加上下左右按鍵控制僅有的十幾個(gè)臺(tái),而現(xiàn)在的智能電視后臺(tái)對(duì)接海量資源,通過(guò)訊飛智能電視助手可以進(jìn)行方便的語(yǔ)音交互,節(jié)省時(shí)間。

在汽車(chē)方面,由于人在駕駛時(shí)候手不能離開(kāi)方向盤(pán),故把語(yǔ)音引入代替手進(jìn)行交互會(huì)方便許多。實(shí)際上相比其他應(yīng)用場(chǎng)景,語(yǔ)音識(shí)別由于汽車(chē)場(chǎng)景的噪音更強(qiáng),面臨更大挑戰(zhàn),而科大訊飛也在基于車(chē)載的語(yǔ)音識(shí)別做了許多優(yōu)化,更在寶馬、奔馳、通用舉行的全球車(chē)載語(yǔ)音識(shí)別比賽取得第一名,有效的支撐了車(chē)載場(chǎng)景的交互。

在機(jī)器人方面,機(jī)器人與人的語(yǔ)音交互滿(mǎn)足自然交互、個(gè)性化服務(wù)以及基于業(yè)務(wù)場(chǎng)景的整合服務(wù),可以方便的任意打斷,在理解用戶(hù)的需求下進(jìn)行精準(zhǔn)的內(nèi)容推薦和服務(wù)。

語(yǔ)音識(shí)別和自然語(yǔ)言理解都是基于統(tǒng)計(jì)和概率體系,所以商業(yè)化過(guò)程建議選擇人受到一定限制(如車(chē)載)或者很難做百分之百正確(如會(huì)議同傳)的場(chǎng)景,然后隨著技術(shù)的進(jìn)一步成熟,可以進(jìn)入到更多的場(chǎng)景。

最后,王士進(jìn)總結(jié)道,“語(yǔ)音識(shí)別和人機(jī)交互技術(shù)在進(jìn)行技術(shù)優(yōu)化的同時(shí)更要結(jié)合應(yīng)用場(chǎng)景,最終可使得技術(shù)完善,產(chǎn)業(yè)更好的發(fā)展。”

百度語(yǔ)音技術(shù)部聲學(xué)技術(shù)負(fù)責(zé)人——李先剛

提到這些年對(duì)手機(jī)百度語(yǔ)音搜索的不斷優(yōu)化過(guò)程,李先剛認(rèn)為要做好這樣一個(gè)產(chǎn)品,先要收集相關(guān)數(shù)據(jù),然后將語(yǔ)音識(shí)別應(yīng)用推廣到相關(guān)產(chǎn)品線(xiàn)上供用戶(hù)使用,用戶(hù)使用后反饋回來(lái)數(shù)據(jù)形成完整鏈條,最終達(dá)到非常完美的狀態(tài)。

他把輸入法在語(yǔ)音識(shí)別中的作用表述為:輸入法這一場(chǎng)景對(duì)語(yǔ)音識(shí)別性能提升有非常大的幫助。

而今年,百度在語(yǔ)音技術(shù)方面的進(jìn)展包括基于GramCTC的端對(duì)端語(yǔ)音識(shí)別系統(tǒng)以及端對(duì)端說(shuō)話(huà)人識(shí)別技術(shù)。

基于CTC的端對(duì)端語(yǔ)音識(shí)別系統(tǒng)是目前主流的工業(yè)系統(tǒng),在2015年底,百度實(shí)現(xiàn)了CTC端對(duì)端語(yǔ)音識(shí)別系統(tǒng)的上線(xiàn)。而今年,百度進(jìn)一步提出了GramCTC算法。

主流的說(shuō)話(huà)人識(shí)別技術(shù)使用經(jīng)典的DNN-IVECTOR技術(shù),其框架基于統(tǒng)計(jì)模型,并將DNN引入此框架去學(xué)習(xí)。

可以看到的是,語(yǔ)音識(shí)別已走向大數(shù)據(jù)和端對(duì)端的道路,百度也將把說(shuō)話(huà)人識(shí)別技術(shù)向此發(fā)展,進(jìn)一步提升相關(guān)性能。

李先剛表示,人臉識(shí)別與說(shuō)話(huà)人識(shí)別有技術(shù)共性,二者之間的差異僅僅只是人臉識(shí)別對(duì)象可以是固定尺寸的圖片,而語(yǔ)音的時(shí)長(zhǎng)會(huì)有很多變化。因此,百度說(shuō)話(huà)人識(shí)別技術(shù)借鑒了目前人臉識(shí)別最好的方法——度量學(xué)習(xí),搭建了端對(duì)端度量學(xué)習(xí)的說(shuō)話(huà)人識(shí)別系統(tǒng)。百度內(nèi)部的實(shí)驗(yàn)顯示,基于端對(duì)端的說(shuō)話(huà)人技術(shù)顯著提升了說(shuō)話(huà)人識(shí)別的性能。

從商業(yè)化的角度分析語(yǔ)音識(shí)別,可將其應(yīng)用分為兩個(gè)維度,第一個(gè)是近場(chǎng)和遠(yuǎn)場(chǎng),第二個(gè)是人配合機(jī)器說(shuō)話(huà)和人對(duì)人說(shuō)話(huà)的不同說(shuō)話(huà)風(fēng)格。經(jīng)過(guò)這樣劃分會(huì)發(fā)現(xiàn)很多語(yǔ)音場(chǎng)景其實(shí)是處在不同的語(yǔ)音象限里面,目前業(yè)界所做的近場(chǎng)人對(duì)機(jī)器說(shuō)話(huà)的識(shí)別準(zhǔn)確率可達(dá)90%以上,但另外幾個(gè)場(chǎng)景所做不盡人意。

在李先剛看來(lái),隨著語(yǔ)音技術(shù)的推進(jìn),輔之商業(yè)化情景必將推動(dòng)產(chǎn)品和技術(shù)的發(fā)展。

搜狗語(yǔ)音交互技術(shù)中心研發(fā)總監(jiān)——陳偉

從2012年到現(xiàn)在,隨著數(shù)據(jù)和算法的提升,搜狗的語(yǔ)音識(shí)別的識(shí)別錯(cuò)誤率是逐年下降的。陳偉分享了一組數(shù)據(jù):到目前為止,搜狗輸入法每天的語(yǔ)音識(shí)別請(qǐng)求量高達(dá)2億次,每天產(chǎn)生語(yǔ)料達(dá)到18萬(wàn)小時(shí)。

陳偉表示,搜狗在2016年發(fā)布知音引擎,對(duì)外輸出完整的語(yǔ)音交互解決方案,也一直在探索語(yǔ)音識(shí)別和交互的不同場(chǎng)景和經(jīng)驗(yàn)。語(yǔ)音識(shí)別可以更好提升輸入、記錄、交流的效率,其可分為聽(tīng)寫(xiě)和轉(zhuǎn)寫(xiě),聽(tīng)寫(xiě)更多要求實(shí)時(shí)性,轉(zhuǎn)寫(xiě)則面向客服數(shù)據(jù),不要求實(shí)時(shí)。另外,語(yǔ)音識(shí)別技術(shù)面向不同客戶(hù),除了直接提供給消費(fèi)者,還有一些公司、企業(yè)如法院、醫(yī)院等,語(yǔ)音識(shí)別的應(yīng)用場(chǎng)合則更多是在演講、直播、語(yǔ)音分析中。

語(yǔ)音識(shí)別不是一個(gè)單獨(dú)的技術(shù),其需要同其他技術(shù)進(jìn)行融合,比如機(jī)器同傳、語(yǔ)音交互,未來(lái)的產(chǎn)品將會(huì)是技術(shù)與技術(shù)的組合,產(chǎn)品與產(chǎn)品的組合。

對(duì)如何做出一款好的語(yǔ)音交互產(chǎn)品,陳偉認(rèn)為首先是要重視場(chǎng)景和知識(shí)。只有技術(shù)(ASR、NLU等)與具體應(yīng)用場(chǎng)景比如車(chē)載、智能家具、可穿設(shè)備結(jié)合在一起,才能得到穩(wěn)定的產(chǎn)品。另外,僅僅有技術(shù)是不夠的,還需要技術(shù)創(chuàng)新。在得到良好的使用體驗(yàn)之后用戶(hù)基數(shù)會(huì)擴(kuò)大,帶來(lái)更多數(shù)據(jù),這些累積的數(shù)據(jù)也是推動(dòng)技術(shù)提升的關(guān)鍵。只有有了產(chǎn)品的迭代、有了真實(shí)的數(shù)據(jù)才能更好的分析出用戶(hù)需求,更好的推動(dòng)產(chǎn)品發(fā)展。

他表示,技術(shù)與產(chǎn)品缺一不可。

“語(yǔ)音交互以技術(shù)為驅(qū)動(dòng),加之好的運(yùn)算力帶來(lái)大量數(shù)據(jù),以此進(jìn)行迭代,不斷通過(guò)技術(shù)和產(chǎn)品的耦合得到更好的產(chǎn)品。”

思必馳CMO——龍夢(mèng)竹

“目前的語(yǔ)音產(chǎn)品識(shí)別率再高,也只是作為一個(gè)參考。”

龍夢(mèng)竹提到,在識(shí)別率的數(shù)字背后,諸如降噪、遠(yuǎn)場(chǎng)、回聲消除及聲源定位等也需要關(guān)注。

那這幾個(gè)詞在整個(gè)語(yǔ)音技術(shù)里面有什么作用呢?

其可以影響識(shí)別率和準(zhǔn)確性以及是判斷語(yǔ)音交互產(chǎn)品是否實(shí)用的重要方向。

目前,各個(gè)公司做的都是端到端的,非配合的私人交互系統(tǒng),在這整個(gè)系統(tǒng)里基本分為三個(gè)層面:從感知、到認(rèn)知、到抽象思維的智能。

首先從感知的方向,要保障機(jī)器能夠聽(tīng)得清,在克服環(huán)境、降噪的方面有很大挑戰(zhàn)的。以思必馳為例,其依靠強(qiáng)大的數(shù)據(jù)庫(kù),已經(jīng)把錯(cuò)詞率降低到了7.19%,比業(yè)界普遍的10%有了非常大的效率提升。

另外,聽(tīng)清以后需要讓機(jī)器快速反應(yīng)。常常會(huì)有客戶(hù)好奇“你們的產(chǎn)品是本地還是云端?”實(shí)際上,現(xiàn)在業(yè)界包括思必馳所做的都是本地+云端,一些簡(jiǎn)單的喚醒詞、指令可能會(huì)放在本地。思必馳目前的本地識(shí)別指令最高支持三千條,當(dāng)然,最高支持?jǐn)?shù)目和產(chǎn)品的硬件配置、系統(tǒng)是相關(guān)的。而更多的需要交流的,需要機(jī)器思考的部分放到云端。

最后,機(jī)器能夠聽(tīng)清并且能夠快速反應(yīng)了,反應(yīng)出來(lái)的效果如何?這個(gè)效果用專(zhuān)業(yè)術(shù)語(yǔ)可以稱(chēng)為T(mén)TS,TTS的優(yōu)劣很大程度會(huì)決定產(chǎn)品體驗(yàn)的優(yōu)劣。許多人理解的TTS可能是明星的合成音,而這些合成音不能適用于所有場(chǎng)景。

目前業(yè)界提出的97%、98%、99%的識(shí)別率這只是單獨(dú)針對(duì)語(yǔ)音識(shí)別而言,在不同的領(lǐng)域、場(chǎng)景下,針對(duì)不同業(yè)務(wù)方向的語(yǔ)音識(shí)別和語(yǔ)意理解其實(shí)是有層次不齊的,這個(gè)圖顯示了在家庭和車(chē)載環(huán)境下不同的準(zhǔn)確率。

龍夢(mèng)竹談到,無(wú)論在哪個(gè)領(lǐng)域做語(yǔ)音交互技術(shù),都必須要滿(mǎn)足幾個(gè)要求:

第一要滿(mǎn)足用戶(hù)剛需;

第二不一定是高頻使用,但在某一場(chǎng)景能讓用戶(hù)形成依賴(lài)性;

第三,語(yǔ)音技術(shù)背后一定要有第三方的內(nèi)容和服務(wù)作支持,因?yàn)樗皇且环N交互手段;

“我們一再?gòu)?qiáng)調(diào)的是,語(yǔ)音只是一個(gè)交互的手段,而不是一種功能。”現(xiàn)在的語(yǔ)音還沒(méi)有達(dá)到全國(guó)人民普及的程度,但未來(lái)一定會(huì)實(shí)現(xiàn)。而這一手段,其背后第三方的內(nèi)容和服務(wù)是比語(yǔ)音本身更重要的東西。

最后,交互體驗(yàn)一定要好。 

本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請(qǐng)聯(lián)系該專(zhuān)欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請(qǐng)及時(shí)聯(lián)系本站刪除。
換一批
延伸閱讀

一個(gè)離線(xiàn)語(yǔ)音識(shí)別中心,沒(méi)有網(wǎng)絡(luò)連接,沒(méi)有無(wú)線(xiàn)路由器。只要一對(duì)運(yùn)行ESPNOW協(xié)議的ESP8266。這就是我想要的房間。這些設(shè)備既可以通過(guò)按開(kāi)關(guān)控制,也可以通過(guò)聲音控制。像alexa這樣的中央集線(xiàn)器可以響應(yīng)你的命令。這篇文...

關(guān)鍵字: ESP8266 語(yǔ)音識(shí)別 傳感器 固態(tài)繼電器

北京2025年2月24日 /美通社/ -- 在近日揭曉的STIF第五屆國(guó)際科創(chuàng)節(jié)暨2024新質(zhì)生產(chǎn)力領(lǐng)航者峰會(huì)獎(jiǎng)項(xiàng)評(píng)選中,安聯(lián)世合中國(guó)憑借其卓越的創(chuàng)新實(shí)踐與行業(yè)領(lǐng)導(dǎo)力,榮膺&...

關(guān)鍵字: 人工智能 語(yǔ)音識(shí)別 大數(shù)據(jù) 智能語(yǔ)音

隨著人口老齡化程度加深,社會(huì)養(yǎng)老負(fù)擔(dān)加重,處理好全社會(huì)的養(yǎng)老問(wèn)題十分重要。在全球范圍內(nèi),老人身體健康受到許多致命疾病的威脅。而獨(dú)居老人生活中缺少家人照顧,心理上缺少慰藉,導(dǎo)致患病率更高,同時(shí)發(fā)生意外也無(wú)法及時(shí)得到救助。面...

關(guān)鍵字: 獨(dú)居老人 語(yǔ)音識(shí)別 姿態(tài)檢測(cè) 智能家居

隨著人工智能技術(shù)的快速發(fā)展,智能音箱已經(jīng)成為我們?nèi)粘I钪胁豢苫蛉钡囊徊糠?。它們通過(guò)語(yǔ)音識(shí)別技術(shù),實(shí)現(xiàn)了人機(jī)交互的便捷性,使得用戶(hù)可以通過(guò)語(yǔ)音指令控制家居設(shè)備、查詢(xún)信息、播放音樂(lè)等。然而,語(yǔ)音識(shí)別技術(shù)的準(zhǔn)確性和實(shí)時(shí)性仍然...

關(guān)鍵字: 智能音箱 語(yǔ)音識(shí)別

“Ok 谷歌做我的家庭作業(yè)”——如果這個(gè)命令有效,我們的童年將會(huì)很簡(jiǎn)單,不是嗎?但是有些事情是要我們自己來(lái)做的,當(dāng)然,我們不會(huì)設(shè)計(jì)一些東西來(lái)幫你完成作業(yè)。然而,我們都承認(rèn)用語(yǔ)音指令做事很有趣!!這就是為什么我們已經(jīng)建立了...

關(guān)鍵字: 語(yǔ)音識(shí)別 樹(shù)莓派 自動(dòng)化 Arduino

隨著人工智能技術(shù)的快速發(fā)展,語(yǔ)音識(shí)別作為其中的一項(xiàng)重要技術(shù),正逐漸在各個(gè)領(lǐng)域展現(xiàn)出巨大的潛力和應(yīng)用前景。語(yǔ)音識(shí)別技術(shù)能夠?qū)⑷祟?lèi)的語(yǔ)音信息轉(zhuǎn)換為文本,為智能家居、智能助手等領(lǐng)域帶來(lái)了智能化、便捷化的體驗(yàn)。

關(guān)鍵字: 人工智能 語(yǔ)音 語(yǔ)音識(shí)別

在現(xiàn)代機(jī)器人技術(shù)的發(fā)展中,語(yǔ)音AI芯片是實(shí)現(xiàn)高級(jí)人機(jī)交互的關(guān)鍵組件之一。這種芯片不僅使機(jī)器人能夠接收和解析語(yǔ)音指令,而且能夠使機(jī)器人理解和響應(yīng)人類(lèi)語(yǔ)言的復(fù)雜性,這在提高機(jī)器人的功能性和互動(dòng)性方面起著至關(guān)重要的作用。

關(guān)鍵字: 端側(cè)AI 語(yǔ)音識(shí)別 啟英泰倫 松山湖論壇 CI135X

本文中,小編將對(duì)語(yǔ)音識(shí)別技術(shù)予以介紹,如果你想對(duì)語(yǔ)音識(shí)別技術(shù)的詳細(xì)情況有所認(rèn)識(shí),或者想要增進(jìn)對(duì)它的了解程度,不妨請(qǐng)看以下內(nèi)容哦。

關(guān)鍵字: 語(yǔ)音識(shí)別 語(yǔ)音識(shí)別技術(shù)

在這篇文章中,小編將為大家?guī)?lái)語(yǔ)音識(shí)別技術(shù)的相關(guān)報(bào)道。如果你對(duì)本文即將要講解的內(nèi)容存在一定興趣,不妨繼續(xù)往下閱讀哦。

關(guān)鍵字: 語(yǔ)音識(shí)別 語(yǔ)音識(shí)別技術(shù)
關(guān)閉