今天,搜狗推出了一款實時語音轉文字速記工具“搜狗聽寫”,使用了搜狗知音引擎的長時語音轉寫技術,為文字工作者提供會議、采訪、寫作等場景下的速記要求,用戶可以在App商店免費下載。
會后,搜狗公司語音交互技術中心總經(jīng)理王硯峰與智東西等媒體就搜狗聽寫、搜狗AI技術、知音OS、以及搜狗智能硬件做了相關交流。
一、一款專注采訪場景的筆記產品
正如智東西之前的報道中寫道,目前市場上已經(jīng)有同類的產品,比如訊飛錄音寶等,搜狗聽寫跟其他家的差異點在哪里呢?在回答智東西的這個問題時,王硯峰表示,搜狗聽見與其他的差異在于兩點:
1、其他產品不能像搜狗聽寫那樣支持長時間錄音+免費轉寫支持;
2、搜狗聽見更面向垂直場景,在記者采訪、作家寫作等場景下進行了功能優(yōu)化(比如加入遠程藍牙標注重點技術),為用戶帶來更好的產品體驗。
在會后的采訪中,王硯峰補充道,除了語音文字轉錄外,搜狗聽寫還有對筆記進行分享、記事、管理等功能,其實更類似一個云筆記,是專門為了解決文字工作者切身遇到的問題而打造的產品。
二、遠場噪聲環(huán)境下的識別轉錄
記者在發(fā)布會現(xiàn)場體驗了,發(fā)現(xiàn)“搜狗聽寫”在吵雜、遠距離環(huán)境下的語音識別效果其實并不是太理想,這其實也是市場上不少語音轉錄產品所存在的共同問題之一——在安靜、近距離環(huán)境下的轉錄效果很好,但處理遠場、噪聲、尤其是發(fā)布會上經(jīng)由麥克風及揚聲器處理過一遍的聲音時效果很差。
為此,王硯峰提出了兩點解決方案:一是繼續(xù)進行數(shù)據(jù)積累與產品迭代,在嘈雜噪音環(huán)境中累積更多數(shù)據(jù)用于模型訓練,才能提升準確率;二則是搜狗聽寫中有“轉寫”模式,系統(tǒng)可在離線狀態(tài)下錄音,錄音完成后一次性獲取文字結果,此時因為不需要實時轉錄出結果,引擎速度不需要那么快,因此可以搭建更深、更復雜的模型,從而也能有更好的識別效果。
不過,由于搜狗聽寫App使用的是手機麥克風,手機本身的收音硬件差異也會導致識別效果差異。目前搜狗聽寫尚不支持外部錄音導入,只能依靠手機進行錄音。
三、智能硬件是搜狗目前的戰(zhàn)略重心之一
搜狗知音是搜狗一年前發(fā)布的語音交互引擎,主打“自然交互+知識計算”的技術戰(zhàn)略。王硯峰海表示,知音引擎指的是技術:語音識別、機器翻譯、語音合成等技術的集合,對于搜狗來說是語音AI的技術平臺。
基于知音引擎,搜狗打造了“知音OS”語音交互平臺,這是一款面向手機、電視、可穿戴、車載設備等智能設備的語音交互平臺。目前,知音OS已經(jīng)在小米、魅族、創(chuàng)維、海爾等產品中落地應用。
王硯峰海表示,智能硬件現(xiàn)在是整個搜狗的戰(zhàn)略重心之一,隨著移動互聯(lián)網(wǎng)時代逐漸向IOT時代進軍,智能硬件已經(jīng)成為搶占用戶入口的最重要渠道。在未來一年里,搜狗還將會在可穿戴、車載、客廳場景內自主研發(fā)更多搭載知音OS的智能硬件,并進一步推廣知音OS平臺與其他廠商的合作。
“搜狗在能做智能硬件的品類下做智能硬件,電視、手機等(不適合搜狗做的)場景下,說服好的合作伙伴進行合作,形成用戶入口。”





