當(dāng)前位置：首頁 > 工業(yè)控制 > 電路設(shè)計項目集錦

構(gòu)建離線ESP32語音助手

時間：2025-10-23 18:53:54

關(guān)鍵字： ESP32 語音助手 AI

手機(jī)看文章

掃描二維碼
隨時隨地手機(jī)看文章

[導(dǎo)讀]這個ESP32項目是一個令牌高效的，由gemini驅(qū)動的設(shè)備，可以從預(yù)定義的文本提示提供實(shí)時語音響應(yīng)。

簡介：一個“無麥克風(fēng)”語音助手的案例

在一個總是監(jiān)聽設(shè)備的時代，我想探索另一種選擇：一種智能、反應(yīng)靈敏、完全由用戶控制的語音助手。我的ESP32語音助手v0.1項目演示了如何構(gòu)建一個強(qiáng)大的人工智能驅(qū)動的設(shè)備，而不需要一個“永遠(yuǎn)在線”的麥克風(fēng)。這不僅提供了一層隱私，而且還允許有意控制API令牌的使用(服務(wù)器代碼中限制為25個)。

本指南將引導(dǎo)您將ESP32，使用Gemini API和gTTS的Python服務(wù)器，I2S音頻放大器和OLED顯示器集成到功能性語音助手中。

功能一覽

?離線操作：按鈕驅(qū)動的選擇預(yù)定義的提示可重復(fù)，麥克風(fēng)自由交互。

?Gemini API集成：Python服務(wù)器使用Gemini進(jìn)行智能文本響應(yīng)。

?token - efficient：在Python服務(wù)器中故意設(shè)置輸出長度限制(25)，以管理AI令牌消耗。

?文本到語音(TTS)：通過gTTS庫生成實(shí)時音頻流。

?I2S音頻輸出：通過MAX98357A放大器和4歐姆揚(yáng)聲器播放高質(zhì)量聲音。

?視覺反饋：0.96英寸的OLED顯示屏和狀態(tài)led提供清晰的操作狀態(tài)(例如，“Thinking…”，“Speaking…”，“Ready”)。

它是如何工作的：系統(tǒng)架構(gòu)

該項目采用客戶機(jī)-服務(wù)器體系結(jié)構(gòu)。ESP32作為客戶端，處理用戶輸入和音頻輸出，而Python服務(wù)器管理AI和TTS處理。

?初始化：ESP32連接到Wi-Fi，顯示“Ready”，等待輸入。

?用戶輸入:

?“下一步”按鈕：循環(huán)通過存儲在ESP32上的預(yù)定義文本提示數(shù)組。

?“發(fā)言”按鈕：觸發(fā)發(fā)言過程。當(dāng)前選擇的提示符通過HTTP GET請求發(fā)送到Python服務(wù)器。

?Python服務(wù)器處理：

?接收到提示后，服務(wù)器將其發(fā)送到Gemini API。

?Gemini返回一個文本響應(yīng)。然后將此響應(yīng)截斷或過濾為預(yù)定義的長度，以保存AI令牌。

?處理后的文本被輸入到gTTS庫中，該庫生成一個音頻流。

?音頻回放：服務(wù)器將音頻流回ESP32。ESP32利用其I2S外設(shè)通過MAX98357A放大器和揚(yáng)聲器播放該流。

?狀態(tài)更新：服務(wù)器通信時OLED顯示屏顯示“Thinking…”，音頻播放時顯示“Speaking…”，并有對應(yīng)的LED指示燈。

它是如何制作的

硬件組件

?單片機(jī)：ESP32 Dev Kit C

?顯示：0.96英寸OLED顯示屏(SSD1306)

?音頻輸出：MAX98357A I2S d類放大器+ 8歐姆揚(yáng)聲器

?用戶輸入：2個觸覺按鈕

?視覺提示：紅色和綠色led

?雜項：面包板，跳線，1A USB電源

接線圖和引腳

(所有接地引腳應(yīng)接在共同接地軌上)

軟件設(shè)置：固件和服務(wù)器

該項目需要設(shè)置ESP32固件(使用Arduino IDE)和Python服務(wù)器。在這里獲取代碼。

1. ESP32固件安裝(Arduino IDE)

?安裝Arduino IDE并添加ESP32板管理器

?從Boards Manager中安裝esp32包。

?通過庫管理器安裝必要的庫：“Adafruit GFX庫”和“Adafruit SSD1306庫”。

?上傳提供的固件代碼(確保更新了Wi-Fi憑據(jù))。

2. Python服務(wù)器設(shè)置

?確保安裝了Python 3。

?創(chuàng)建并激活虛擬環(huán)境。

?安裝依賴：pip Install -r requirements.txt

?使用GEMINI_API_KEY="YOUR_API_KEY_HERE"創(chuàng)建a.e env文件。

?運(yùn)行server: python server.py。

結(jié)論和未來的改進(jìn)

該項目為構(gòu)建交互式AI驅(qū)動硬件提供了堅實(shí)的基礎(chǔ)。它突出了將現(xiàn)成的微控制器與強(qiáng)大的AI API和高效的TTS解決方案相結(jié)合的能力。未來的增強(qiáng)可能包括添加更復(fù)雜的提示管理、基于web的配置界面，甚至與本地語音模型集成，以實(shí)現(xiàn)完全的氣隙操作。

本文編譯自hackster.io

本站聲明：本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布，目的在于傳遞更多信息，并不代表本站贊同其觀點(diǎn)，本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者，如若文章內(nèi)容侵犯您的權(quán)益，請及時聯(lián)系本站刪除。

換一批

與傳統(tǒng)的驅(qū)動方式相比，共陰恒流驅(qū)動在能效有哪些優(yōu)勢

LED驅(qū)動電源的輸入包括高壓工頻交流(即市電)、低壓直流、高壓直流、低壓高頻交流(如電子變壓器的輸出)等。

關(guān)鍵字：驅(qū)動電源

[電源]

工業(yè)電機(jī)驅(qū)動電源設(shè)計：反電動勢抑制與過流保護(hù)的集成方案

在工業(yè)自動化蓬勃發(fā)展的當(dāng)下，工業(yè)電機(jī)作為核心動力設(shè)備，其驅(qū)動電源的性能直接關(guān)系到整個系統(tǒng)的穩(wěn)定性和可靠性。其中，反電動勢抑制與過流保護(hù)是驅(qū)動電源設(shè)計中至關(guān)重要的兩個環(huán)節(jié)，集成化方案的設(shè)計成為提升電機(jī)驅(qū)動性能的關(guān)鍵。

關(guān)鍵字：工業(yè)電機(jī) 驅(qū)動電源

[電源]

如何解決 LED 驅(qū)動電源的易損壞問題

LED 驅(qū)動電源作為 LED 照明系統(tǒng)的 “心臟”，其穩(wěn)定性直接決定了整個照明設(shè)備的使用壽命。然而，在實(shí)際應(yīng)用中，LED 驅(qū)動電源易損壞的問題卻十分常見，不僅增加了維護(hù)成本，還影響了用戶體驗(yàn)。要解決這一問題，需從設(shè)計、生...

關(guān)鍵字：驅(qū)動電源照明系統(tǒng) 散熱

[電力電工電路]

LED設(shè)計中LED驅(qū)動電源的公式

根據(jù)LED驅(qū)動電源的公式，電感內(nèi)電流波動大小和電感值成反比，輸出紋波和輸出電容值成反比。所以加大電感值和輸出電容值可以減小紋波。

關(guān)鍵字： LED 設(shè)計驅(qū)動電源

[汽車電子]

EV主驅(qū)IGBT隔離驅(qū)動電源方案選擇問題探討

電動汽車(EV)作為新能源汽車的重要代表，正逐漸成為全球汽車產(chǎn)業(yè)的重要發(fā)展方向。電動汽車的核心技術(shù)之一是電機(jī)驅(qū)動控制系統(tǒng)，而絕緣柵雙極型晶體管(IGBT)作為電機(jī)驅(qū)動系統(tǒng)中的關(guān)鍵元件，其性能直接影響到電動汽車的動力性能和...

關(guān)鍵字：電動汽車新能源驅(qū)動電源

[電源]

合理的驅(qū)動電源方案成為大功率區(qū)域照明的主流選擇

在現(xiàn)代城市建設(shè)中，街道及停車場照明作為基礎(chǔ)設(shè)施的重要組成部分，其質(zhì)量和效率直接關(guān)系到城市的公共安全、居民生活質(zhì)量和能源利用效率。隨著科技的進(jìn)步，高亮度白光發(fā)光二極管(LED)因其獨(dú)特的優(yōu)勢逐漸取代傳統(tǒng)光源，成為大功率區(qū)域...

關(guān)鍵字：發(fā)光二極管驅(qū)動電源 LED

[消費(fèi)電子]