如何實現(xiàn)無需記憶命令的AI語音控制
想想看:語音控制無處不在——在智能電視、遙控器、智能家居設(shè)備中。然而,大多數(shù)人在第一次嘗試后就不再使用它了。為什么?因為只有當(dāng)你記住一組嚴(yán)格的命令時,它才有效。漏掉一個字,系統(tǒng)就會忽略你。
在VoxControl固件v.2中,這種體驗發(fā)生了變化。這是第一次,制造商可以嘗試未來的設(shè)備應(yīng)該是什么樣子:你自然地說話,系統(tǒng)對你的意思做出反應(yīng),而不僅僅是你的語言。所有這些都直接在您已經(jīng)擁有的ESP32-S3上脫機(jī)運行。
為什么重要?
這不僅僅是一個板的升級。這是對未來設(shè)備將如何傾聽和回應(yīng)的一瞥。而不是訓(xùn)練你像機(jī)器一樣說話,機(jī)器會適應(yīng)你。沒有云服務(wù),沒有互聯(lián)網(wǎng),沒有記憶命令——只有自然的聲音輸入,真實的動作輸出。對于教室、研討會和演示,它使交互變得毫不費力。對于oem廠商來說,這是一個小而真實的概念驗證,說明了語音控制的發(fā)展方向。
用例
基本的機(jī)器人控制。VoxControl v.2可以理解變化,而不是記憶一個嚴(yán)格的短語。說“前進(jìn)”、“前進(jìn)”或“前進(jìn)”——機(jī)器人仍然向前移動。這同樣適用于轉(zhuǎn)彎和停車。
課堂實驗。在機(jī)器人課上,孩子們經(jīng)常忘記“官方”詞匯?,F(xiàn)在,一個學(xué)生可以說“向左走”,另一個說“向左轉(zhuǎn)”,兩者都會使機(jī)器人轉(zhuǎn)彎。重點是學(xué)習(xí),而不是記住小抄。
DIY擴(kuò)展。VoxControl并不局限于機(jī)器人。連接led,風(fēng)扇或小型電機(jī),并映射“停止/停止”來關(guān)閉它,或“去”來打開它。使用固件v.2,您可以立即將自然語音控制擴(kuò)展到簡單的DIY項目。
界面原型。如果你好奇人們是如何自然地與設(shè)備交談的,這個固件是一個動手探索它的方式。通過測試不同的短語,您可以看到哪些短語感覺直觀,以及識別系統(tǒng)應(yīng)該如何響應(yīng)。
它是如何工作的
在引擎蓋下,這是一個巧妙的技巧。麥克風(fēng)接收語音,ASR模型將其轉(zhuǎn)換為文本,分類器將不同的短語映射為相同的動作?!扒斑M(jìn)”、“繼續(xù)”或“繼續(xù)”都會觸發(fā)同樣的行為。看起來像理解的東西實際上是一個經(jīng)過精心優(yōu)化的識別管道,它被打包到ESP32-S3中,并完全在邊緣運行。
自己試試
VoxControl的所有者可以請求固件v.2, flash它,并立即看到變化。用你想要的方式說出命令,董事會就會做出回應(yīng)。前進(jìn)、轉(zhuǎn)彎、停車——當(dāng)你不需要記住“正確”的短語時,一切都感覺更流暢、更自然。
請隨時在Hackster上向我們發(fā)送消息或發(fā)送電子郵件至hi@grovety.com請求固件更新。
接下來是什么
這次更新僅僅是個開始。如果你們中的許多人要求相同的新單詞或動作,我們將在未來的固件版本中包含它們。通過嘗試VoxControl v.2,您不僅僅是升級了一個板-您正在幫助塑造未來自然語音控制的工作方式。
分享你的反饋
什么詞最適合你?你希望包括哪些?您的意見將指導(dǎo)下一輪的更新,并使我們更接近我們所期望的傾聽方式的設(shè)備。
本文編譯自hackster.io





