[導(dǎo)讀]智能語音交互是基于語音輸入的新一代交互模式,通過說話就可以得到反饋結(jié)果??梢岳斫鉃槿祟惻c機(jī)器間通過自然語言完成信息傳遞的技術(shù)。語音交互的完整流程,如下圖所示。通常,根據(jù)距離遠(yuǎn)近語音交互場景可分為兩種:近場語音場景:通常通過按鍵激活,例如智能手機(jī)等便攜設(shè)備。遠(yuǎn)場語音場景:通常通過喚...
智能語音交互是基于語音輸入的新一代交互模式,通過說話就可以得到反饋結(jié)果??梢岳斫鉃槿祟惻c機(jī)器間通過自然語言完成信息傳遞的技術(shù)。
語音交互的完整流程,如下圖所示。通常,根據(jù)距離遠(yuǎn)近語音交互場景可分為兩種:
- 近場語音場景:通常通過按鍵激活,例如智能手機(jī)等便攜設(shè)備。
- 遠(yuǎn)場語音場景:通常通過喚醒詞激活,例如智能音箱等固定設(shè)備。
遠(yuǎn)場語音場景下,在產(chǎn)品策略上通常會(huì)采取兩種方案,以提高喚醒的準(zhǔn)確率:
- 將喚醒詞的音節(jié)長度增加到4音節(jié)。這是因?yàn)橐艄?jié)越長,喚醒的準(zhǔn)確率就會(huì)越高。比如:“小興小興”的喚醒準(zhǔn)確率遠(yuǎn)高于“小興”。
- 白天只對(duì)喚醒詞做本地校驗(yàn),夜間則再增加云端二次校驗(yàn)。這是喚醒速度和準(zhǔn)確率間的平衡策略。
- 白天用戶更看重響應(yīng)速度,發(fā)生偶爾的誤喚醒用戶能理解或接受,這時(shí)候僅由本地的喚醒檢測(cè)模塊進(jìn)行快速檢測(cè),保證 700 ms 內(nèi)快速響應(yīng)用戶。
- 晚上睡覺時(shí)用戶對(duì)誤喚醒是零容忍的,這時(shí)候就要偏重喚醒的準(zhǔn)確度,將本地檢測(cè)過的語音上傳到云端進(jìn)行二次確認(rèn),再?zèng)Q定本地是否響應(yīng)。
語音識(shí)別階段的主要作用是采集用于語音,并將語音轉(zhuǎn)換為文字,該階段主要做兩件事情:1. 尋向降噪。尋向的作用就是判斷用戶方向,由用戶方向的麥克風(fēng)采集語音數(shù)據(jù),保證語音的數(shù)據(jù)是最清晰的。降噪是對(duì)環(huán)境音進(jìn)行消除,提高識(shí)別準(zhǔn)確率。2. 識(shí)別語音并轉(zhuǎn)換成文字。為提高特定內(nèi)容的識(shí)別率,一般都會(huì)提供熱詞服務(wù),配置的熱詞內(nèi)容實(shí)時(shí)生效,并且會(huì)提升 ASR 結(jié)果的識(shí)別權(quán)重,在一定程度上提高 ASR 識(shí)別的準(zhǔn)確率。語義理解就是嘗試?yán)斫馊祟惖恼Z言,即把語音識(shí)別的結(jié)果轉(zhuǎn)成結(jié)構(gòu)化的、機(jī)器能夠理解的語言。
NLU 的工作邏輯是將用戶的指令進(jìn)行 Domain(領(lǐng)域)→Intent(意圖)→Slot(詞槽)三級(jí)拆分。例如:“設(shè)置一個(gè)明早 8 點(diǎn)的鬧鐘”這樣一條指令,經(jīng)過 NLU 處理,用戶的指令則被拆分為如下三級(jí):- 領(lǐng)域:“鬧鐘”
- 意圖:“設(shè)置鬧鐘”
- 詞槽:“明早8點(diǎn)”
- 先決策。機(jī)器在對(duì)話過程中不斷根據(jù)當(dāng)前的狀態(tài)決策下一步應(yīng)該采取的最優(yōu)動(dòng)作。
- 再執(zhí)行。如提供結(jié)果,詢問特定限制條件,澄清或確認(rèn)需求,調(diào)用各種 Skill 技能(AI 時(shí)代的 APP),從而最有效的輔助用戶完成信息或服務(wù)的獲取。
NLG 的主要目的是降低人類和機(jī)器之間的溝通鴻溝,將非語言格式的數(shù)據(jù)轉(zhuǎn)換成人類可以理解的語言格式。簡單的 NLG 可以將數(shù)據(jù)進(jìn)行合并處理,而高級(jí)的 NLG 則可以理解數(shù)據(jù)想要表達(dá)的意圖,并考慮上下文,呈現(xiàn)出可以輕松閱讀的內(nèi)容。
目前在一些有比較明顯規(guī)則的領(lǐng)域中,比如體育新聞,已經(jīng)可以借助 NLG 進(jìn)行新聞的自動(dòng)發(fā)布了。也許你現(xiàn)在正在看的一篇文章就是由機(jī)器生成的~將文字內(nèi)容轉(zhuǎn)換成語音輸出,讓機(jī)器跟我們對(duì)話。這涉及到兩個(gè)過程:- 將從文字內(nèi)容轉(zhuǎn)換成語音輸出,讓機(jī)器說話。
- 合成語音:狹義上專指根據(jù)音素序列(以及標(biāo)注好的起止時(shí)間、頻率變化等信息)生成語音,廣義上它也可以包括文本處理的步驟。
家庭中語音交互的主要應(yīng)用場景包括:語音查詢資訊、語音控制播放、語音免提撥號(hào)、語音控制家電等。縮略語:ASR:Automatic Speech Recognition,自動(dòng)語音識(shí)別技術(shù)NLU:Natural Language Understanding,自然語言理解DM:Dialog Management,對(duì)話管理NLG:Natural Language Generation,自然語言生成TTS:Text To Speech,從文本到語音NLP:Natural Language Processing,自然語言處理IPTV:Internet Protocol Television,網(wǎng)際協(xié)議電視OTT:Over The Top,通過互聯(lián)網(wǎng)向用戶提供各種應(yīng)用服務(wù)IMS:Interactive Multimedia Service,交互式多媒體服務(wù)IOT:Internet of Things,物聯(lián)網(wǎng)我們是一群平均從業(yè)年限5 的通信專業(yè)工程師。關(guān)注我們,帶你了解通信世界的精彩!
欲知詳情,請(qǐng)下載word文檔
下載文檔
本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請(qǐng)聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請(qǐng)及時(shí)聯(lián)系本站刪除。
語音交互:對(duì)交互效率提升意義重大,理解能力推動(dòng)大規(guī)模落地。語音交互的無 接觸屬性與自然性凸顯其對(duì)提升交互效率的意義,在數(shù)十年的發(fā)展歷程中,2000 年以 來語音理解能力的發(fā)展推動(dòng)語音交互以大規(guī)模嵌入產(chǎn)品進(jìn)入商業(yè)市場。
關(guān)鍵字:
智能家居
語音交互
語音助手
(全球TMT2022年5月28日訊)奇瑞汽車全新旗艦產(chǎn)品瑞虎8 PRO正式上市。新車搭載了奇瑞全新一代"Lion 5.0 AI科技智慧座艙",率先采用基于地平線征程3芯片打造的Horizon Halo?️...
關(guān)鍵字:
芯片
奇瑞
多模
語音交互
摘 要:i-mirror 智能家居機(jī)器人是在智慧生活的概念下將傳統(tǒng)家居鏡進(jìn)行改進(jìn)的智能家居產(chǎn)品。它為居住者提供家電控制、信息獲取、環(huán)境監(jiān)控、休閑娛樂、遠(yuǎn)程操作等一系列智能體驗(yàn)。文中針對(duì)智能家居在家庭中的智聯(lián)互通和信息整合...
關(guān)鍵字:
智能家居機(jī)器人
樹莓派
人臉識(shí)別
語音交互
摘? 要:云計(jì)算技術(shù)和語音識(shí)別技術(shù)的迅猛發(fā)展使得人工智能的實(shí)現(xiàn)變得越來越容易,但目前多個(gè)硬件軟件之間的合作并不友好。文中研究并設(shè)計(jì)了基于云平臺(tái)和iOS的語音交互系統(tǒng),同時(shí)通過實(shí)驗(yàn)證明了在iOS系統(tǒng)的HomeKit中可以加...
關(guān)鍵字:
云計(jì)算
人工智能
iOS
語音交互
9月18日,在2020云棲大會(huì)上,達(dá)摩院公布了語音AI技術(shù)的最新突破:端上語音識(shí)別和語音合成能力首次達(dá)到媲美云端的水平,這意味著未來個(gè)人用戶在移動(dòng)終端即可輕松體驗(yàn)逼近真人的語音技術(shù)。
關(guān)鍵字:
達(dá)摩院
語音ai
語音交互
通過語言和聲音來表達(dá)自己的意愿是人與人溝通的基本方式,可是人與機(jī)器間卻一直存在著溝通上的種種障礙,如何突破這種限制,形成像人與人之間充滿智慧、溫情的人機(jī)交互一直是人類努力的方向。iPhone
關(guān)鍵字:
人機(jī)交互
語音控制
語音交互
ivoka
上一代系統(tǒng)使用汽車內(nèi)置功能來提供娛樂與信息系統(tǒng),而下一代汽車信息娛樂系統(tǒng)的功能將源于駕車者的移動(dòng)設(shè)備,如iPhone、iPad和其它智能手機(jī)及平板電腦。這是一個(gè)巨大的變化。信
關(guān)鍵字:
映射技術(shù)
語音交互
語音識(shí)別
車載語音識(shí)別
在行車過程中,注意力分散會(huì)影響駕駛員的操控,容易導(dǎo)致交通事故,車載語音交互技術(shù)的出現(xiàn)很好的解決了這個(gè)問題。它的重要作用就是提升駕駛的安全性,為用戶創(chuàng)建一個(gè)豐富、便捷和安全的車生活。
關(guān)鍵字:
華強(qiáng)聚豐
思必馳
電子發(fā)燒友
語音交互
如今,人機(jī)交互技術(shù)應(yīng)用潛力開始凸顯,比如智能手機(jī)配備空間跟蹤技術(shù),應(yīng)用于虛擬現(xiàn)實(shí)、遙控機(jī)器人及遠(yuǎn)程醫(yī)療等的觸覺交互技術(shù),對(duì)于有語言障礙的人士的無聲語音識(shí)別,還有各種創(chuàng)新技術(shù),如指紋識(shí)別、TD
關(guān)鍵字:
思必馳
語音交互
車聯(lián)網(wǎng)
李彥宏稱,牛頓、達(dá)爾文、霍金都是對(duì)他產(chǎn)生了非常深遠(yuǎn)影響的“劍橋人”,而對(duì)他啟發(fā)最大的,則是知名詩人徐志摩和人工智能之父——艾倫·
關(guān)鍵字:
人工智能
圖像識(shí)別
百度
語音交互
不論是不溫不火的智能穿戴、智能家居類產(chǎn)品,還是最近大火的各種用途的智能機(jī)器人。我們明顯感受到在硬件智能化的過程中,語音交互已成為一項(xiàng)普遍并且關(guān)鍵的交互、控制技術(shù),只需動(dòng)一下“嘴巴
關(guān)鍵字:
機(jī)器人
科大訊飛
語音交互
隨著人工智能行業(yè)的快速發(fā)展,未來機(jī)器人都將在各行各業(yè)發(fā)揮重要的作用,且充滿無限可能。在電影《超能陸戰(zhàn)隊(duì)》中,機(jī)器人主角“大白”既能識(shí)別他人跟它說的話,又能&ldquo
關(guān)鍵字:
思必馳
機(jī)器人
語音交互
“人工智能無成本復(fù)制的能力和持續(xù)向前進(jìn)化的能力是人類自身所無法比擬的。”在科大訊飛研究院院長胡國平眼中,人工智能的無窮魅力就在于此,“人類智能無法復(fù)制。即
關(guān)鍵字:
人工智能
語音交互
馬云說:“過去是知識(shí)驅(qū)動(dòng),未來是智慧驅(qū)動(dòng);過去把人變機(jī)器,未來把機(jī)器變?nèi)恕?rdquo;楊元慶說:“每一臺(tái)終端又從云端汲取智慧,更能理解人們的需求,能用自然語言與人們交流
關(guān)鍵字:
2016iot大會(huì)
人工智能
聲瀚科技
語音交互
2017年已然開始,人工智能將會(huì)是大家關(guān)注的焦點(diǎn)。無論是創(chuàng)業(yè)者還是投資人,無論是國內(nèi)還是國外,都掀起了人工智能熱潮。那么,2017年人工智能會(huì)有哪些行業(yè)趨勢(shì)呢?
第一個(gè)趨勢(shì)是,全
關(guān)鍵字:
人工智能
機(jī)器人
語音交互
編者按:語音助手和語音交互領(lǐng)域的市場爭奪已經(jīng)在2017CES上初現(xiàn)鋒芒,除了原有的美國亞馬遜、谷歌、微軟等國際廠商不斷推進(jìn)這個(gè)領(lǐng)域新產(chǎn)品,國內(nèi)科大訊飛,包括華為都在全力開拓這個(gè)領(lǐng)域。語音交互作為
關(guān)鍵字:
alexa
科大訊飛
語音交互
谷歌
3月10日,由智東西、AWE、極果等聯(lián)合舉辦“GTIC 2017全球(智慧)科技峰會(huì)”在上海證大喜馬拉雅中心正式開幕。地平線機(jī)器人副總裁張永謙發(fā)表了名為“&l
關(guān)鍵字:
人工智能
傳感器
智能家居
語音交互
蘋果即將發(fā)布的iOS 10.3版本中,內(nèi)置的Siri能夠支持上海話了;Assistant支持下的Google Home有望在今年加入通話功能;Alexa到2020年將為亞馬遜創(chuàng)造100億美元的營
關(guān)鍵字:
智能家居
物聯(lián)網(wǎng)
語音交互
2017年3月29日,作為云棲大會(huì)深圳峰會(huì)的閉門會(huì)議之一的YunOS Carware發(fā)布暨合作伙伴大會(huì)在深圳隆重舉行。大會(huì)正式發(fā)布了YunOS Carware智能車載操作系統(tǒng),現(xiàn)場聚集了超過30
關(guān)鍵字:
思必馳
語音交互
車聯(lián)網(wǎng)