(文章來源:百家號)
一份來自大西洋彼岸的報告成為很多人關注的焦點。這份由美國知名投資機構(gòu)Mangrove Capital Partners發(fā)布的《2019年語音技術報告》(以下簡稱報告)指出:2025年語音經(jīng)濟規(guī)?;?qū)⑦_1萬億美元,正式超過移動應用經(jīng)濟。
過去幾年,谷歌、微軟、亞馬遜、百度等全球科技巨頭紛紛押注語音賽道,投影在人們面前的是接踵而至的明星語音產(chǎn)品——Echo智能音箱、Siri智能語音助手、Google Assistant谷歌語音助手、Cortana(微軟小娜)人工智能助理、Alexa語音識別引擎、百度小度助手(DuerOS)。
一個明顯的感覺是,語音識別正在成為人類與互聯(lián)網(wǎng)溝通的新主流方式。但熱火朝天、寸土必爭的搶跑下注背后,人們不禁會想到那個柏拉圖式的問題:智能語音到底是什么?它從哪來?又要到哪去?從歷史中不難找到關于語音技術的“蛛絲馬跡”。
早在80年前,首個能夠合成語音的機器誕生于美國新澤西州茉莉山上的貝爾實驗室,如果把語音技術的發(fā)展看成一條射線,那么這個被譽為世界上最偉大的實驗室可以看作是它的起點。兩年后的1954年,藍色“巨人” IBM與喬治城語言學家合作成功研制出一臺能夠把60句俄語話翻譯成英語的機器。而在不久后,第一個基于計算機的語音合成系統(tǒng)面世,語音技術就此開始被疊加著與日俱增的想象。
人類最不缺乏兩種能力,一種是想象力,另一種是創(chuàng)造力。但即使用幾十年后的今天來看當時,也很難預測出語音技術的發(fā)展軌跡。當然,更難想到的是,這將成了一個全球的角斗場。對于智能語音技術,坊間有一個頗為形象的比喻——遙控中樞。在一切都趨向具像化的如今,語音自然成了下一個產(chǎn)品形態(tài)的“摩斯密碼”。誰能制定密碼規(guī)則,誰就能掌控全局。
縱觀當下世界智能語音交互市場的幾大主要玩家,百度從2010年開始做語音技術,如今已近十年;美國的亞馬遜Alexa花了二十二年;即便是誕生最晚的谷歌Google Assistant也有著近十余年的數(shù)據(jù)沉淀。騏驥千里非一日之功。掩藏在如今頗具智能化的Siri、谷歌助理、微軟小娜以及百度小度背后的是這個行業(yè)高筑的技術護城河。
今年年初,百度公布了語音領域的四項重大技術突破,其中,在線語音領域全球首創(chuàng)的流式多級的截斷注意力模型(SMLTA,全稱為「Streaming trancated multi-layer attenTIon」),被業(yè)界人士將該項技術突破評價為技術領域的“登月計劃”。
去年公布的第二十屆中國專利評審結(jié)果中,百度的語音、機器翻譯、無人車相關三項專利獲獎,成為人工智能領域至今為止在國內(nèi)專利界獲得的最高級別政府獎項。在此之中,“語音專利”涉及的新語音識別模型——采用深度學習算法在24時內(nèi)對數(shù)以百億級的大規(guī)模數(shù)據(jù)進行實時分析,高性能計算,令語音識別技術的準確率達97%,解決了語音識別領域關鍵性、共性的技術難題,被MIT 評為“2016年全球十大突破技術”。
在AI開發(fā)者大會上,百度還推出了針對遠場語音交互的鴻鵠芯片,可以實現(xiàn)遠場陣列信號實時處理,高精度超低誤報語音喚醒以及離線語音識別。另一邊,百度旗下的明星產(chǎn)品小度智能音箱在今年第一季度更是達到了330萬臺的超高出貨量,位居中國市場榜首。顯然,百度正在建立從硬件底層芯片、到上層的智能硬件系統(tǒng),再到系統(tǒng)軟件,語音客戶端,語音服務器及后端交互一體化的全鏈路語音交互技術。
可以肯定的是,下一個十年,語音技術將成為新的決定性主題。





