語音識別技術的應用及數(shù)字化生活的發(fā)展
(文章來源:捷思奇)
語音識別領域已經(jīng)開始從研發(fā)轉為應用,研發(fā)比的是標準環(huán)境下純粹的算法誰更有優(yōu)勢,而應用比較的是在真實場景下誰的技術更能產(chǎn)生優(yōu)異的用戶體驗,而一旦在真實場景下的體驗,語音識別便失去獨立存在的價值,更多作為產(chǎn)品體驗的一個環(huán)節(jié)而存在。
智能音箱,以一種井噴式的發(fā)展出現(xiàn)在大眾面前,市場銷量以及智能音箱的 AI 屬性,促使 2016 年下半年,國內各大巨頭幾乎是同時轉變態(tài)度,積極打造自己的智能音箱 。但在 2019 年之后則開始進入市場萎縮的階段,人們關注的焦點也不再是單純的技術指標,而是回歸到體驗,更為一般的、純粹的商業(yè)視角。然而卻因為技術瓶頸的限制,客戶的體驗感覺并未如預期,智能音箱在遠場環(huán)境中使用的效果也沒達到消費者的期待。
智能音箱淪為網(wǎng)路聽歌、聽書的平臺,更有眾里換他千百度,只收到請再說一次的回應;這與開發(fā)智能音箱的初衷出現(xiàn)非常大的差距,而讓智能音箱淪為玩具,確實也讓市場對于智能音箱的發(fā)展產(chǎn)生很大的質疑。目前發(fā)展較為成功的應用大多局限于語音翻譯機,而智能家居上利用語音作為控制上的應用僅止于產(chǎn)品演示,離真正的實用化還有萬里之遙;畢竟環(huán)境因素與遠場語音識別技術,不管硬體還是軟體都還尚未到達成熟可以商業(yè)化的程度,這更阻礙市場的發(fā)展。
當語音產(chǎn)業(yè)尋求下一個發(fā)展契機的同時,行業(yè)的發(fā)展速度反過來會受限于平臺服務商的供給能力而導致整體發(fā)展速度變緩。從整體市場發(fā)展來看,行業(yè)下一步發(fā)展的本質思維是:在具體每個語音識別產(chǎn)品的投入產(chǎn)出是否達到一個普遍接受的應用,離這個越近,行業(yè)就越會接近蓬勃發(fā)展,否則整體增速就會相對平緩。然而不管是智能家居、酒店、金融、教育或者其他場景,如果解決問題的投入資金與時間過于漫長,那對投資方的考量就會增加更多猶豫。如果投入后,沒有可感知的新體驗或者銷量促進,那對此投資方也會興趣缺缺,這會直接影響值不值投資的判斷。
從核心技術來看,整個語音技術有五點技術:喚醒、自然語言處理、語音合成;這些AI芯片與軟件算法相對來說復雜程度非常的高,但從商業(yè)角度來看我們就會發(fā)現(xiàn),想要找到這些技術的不足點打造一款體驗良好的產(chǎn)品,仍然存在著非常大的技術門檻 。所有語音交互產(chǎn)品都是端點對端點應用的產(chǎn)品,如果每家廠商都從這些基礎技術來打造產(chǎn)品,那就每家都要建立自己云服務系統(tǒng),確保響應速度,調試自己所選擇的硬件平臺,逐項整合具體的內容。這對產(chǎn)品生產(chǎn)方或者解決方案商來說都是她們所無法承受之重的;這時候就會催生相應的平臺服務商,它要同時解決內容接入和工程細節(jié)等問題,最終達成價格成本夠低、體驗卻足夠好的消費者期待目標。
國內則缺乏系統(tǒng)整合的平臺提供商,當前的平臺提供商分為兩種:一種是傳統(tǒng)互聯(lián)網(wǎng)或者上市公司;一類是以語音識別技術為主的新興人工智能公司。新興的人工智能公司相比傳統(tǒng)公司產(chǎn)品和服務上的歷史包袱更輕,因此在平臺服務上反倒是可以主推一些更為面向未來、有特色的基礎服務,比如兼容性方面新興公司做的會更加徹底,這種兼容性對于一套產(chǎn)品同時覆蓋全球市場是相對更加有利的。
人與數(shù)字世界的接口,在現(xiàn)在越來越統(tǒng)一于具體的產(chǎn)品形態(tài)(比如手機),但隨著智能型系統(tǒng)的出現(xiàn),這種統(tǒng)一則會越來越統(tǒng)一于系統(tǒng)本身,而相對的周邊傳感器與執(zhí)行器的開發(fā),可將整個系統(tǒng)更加完善、更接近人內的言行與思考模式,這樣的結果會帶來數(shù)字化程度更高,越來越接近數(shù)字化的生活。
? ? ? ?





