今天,搜狗推出了一款實時語音轉(zhuǎn)文字速記工具“搜狗聽寫”,使用了搜狗知音引擎的長時語音轉(zhuǎn)寫技術(shù),為文字工作者提供會議、采訪、寫作等場景下的速記要求,用戶可以在App商店免費下載。
會后,搜狗公司語音交互技術(shù)中心總經(jīng)理王硯峰與智東西等媒體就搜狗聽寫、搜狗AI技術(shù)、知音OS、以及搜狗智能硬件做了相關(guān)交流。
一、一款專注采訪場景的筆記產(chǎn)品
正如智東西之前的報道中寫道,目前市場上已經(jīng)有同類的產(chǎn)品,比如訊飛錄音寶等,搜狗聽寫跟其他家的差異點在哪里呢?在回答智東西的這個問題時,王硯峰表示,搜狗聽見與其他的差異在于兩點:
1、其他產(chǎn)品不能像搜狗聽寫那樣支持長時間錄音+免費轉(zhuǎn)寫支持;
2、搜狗聽見更面向垂直場景,在記者采訪、作家寫作等場景下進(jìn)行了功能優(yōu)化(比如加入遠(yuǎn)程藍(lán)牙標(biāo)注重點技術(shù)),為用戶帶來更好的產(chǎn)品體驗。
在會后的采訪中,王硯峰補充道,除了語音文字轉(zhuǎn)錄外,搜狗聽寫還有對筆記進(jìn)行分享、記事、管理等功能,其實更類似一個云筆記,是專門為了解決文字工作者切身遇到的問題而打造的產(chǎn)品。
二、遠(yuǎn)場噪聲環(huán)境下的識別轉(zhuǎn)錄
記者在發(fā)布會現(xiàn)場體驗了,發(fā)現(xiàn)“搜狗聽寫”在吵雜、遠(yuǎn)距離環(huán)境下的語音識別效果其實并不是太理想,這其實也是市場上不少語音轉(zhuǎn)錄產(chǎn)品所存在的共同問題之一——在安靜、近距離環(huán)境下的轉(zhuǎn)錄效果很好,但處理遠(yuǎn)場、噪聲、尤其是發(fā)布會上經(jīng)由麥克風(fēng)及揚聲器處理過一遍的聲音時效果很差。
為此,王硯峰提出了兩點解決方案:一是繼續(xù)進(jìn)行數(shù)據(jù)積累與產(chǎn)品迭代,在嘈雜噪音環(huán)境中累積更多數(shù)據(jù)用于模型訓(xùn)練,才能提升準(zhǔn)確率;二則是搜狗聽寫中有“轉(zhuǎn)寫”模式,系統(tǒng)可在離線狀態(tài)下錄音,錄音完成后一次性獲取文字結(jié)果,此時因為不需要實時轉(zhuǎn)錄出結(jié)果,引擎速度不需要那么快,因此可以搭建更深、更復(fù)雜的模型,從而也能有更好的識別效果。
不過,由于搜狗聽寫App使用的是手機麥克風(fēng),手機本身的收音硬件差異也會導(dǎo)致識別效果差異。目前搜狗聽寫尚不支持外部錄音導(dǎo)入,只能依靠手機進(jìn)行錄音。
三、智能硬件是搜狗目前的戰(zhàn)略重心之一
搜狗知音是搜狗一年前發(fā)布的語音交互引擎,主打“自然交互+知識計算”的技術(shù)戰(zhàn)略。王硯峰海表示,知音引擎指的是技術(shù):語音識別、機器翻譯、語音合成等技術(shù)的集合,對于搜狗來說是語音AI的技術(shù)平臺。
基于知音引擎,搜狗打造了“知音OS”語音交互平臺,這是一款面向手機、電視、可穿戴、車載設(shè)備等智能設(shè)備的語音交互平臺。目前,知音OS已經(jīng)在小米、魅族、創(chuàng)維、海爾等產(chǎn)品中落地應(yīng)用。
王硯峰海表示,智能硬件現(xiàn)在是整個搜狗的戰(zhàn)略重心之一,隨著移動互聯(lián)網(wǎng)時代逐漸向IOT時代進(jìn)軍,智能硬件已經(jīng)成為搶占用戶入口的最重要渠道。在未來一年里,搜狗還將會在可穿戴、車載、客廳場景內(nèi)自主研發(fā)更多搭載知音OS的智能硬件,并進(jìn)一步推廣知音OS平臺與其他廠商的合作。
“搜狗在能做智能硬件的品類下做智能硬件,電視、手機等(不適合搜狗做的)場景下,說服好的合作伙伴進(jìn)行合作,形成用戶入口。”





