人形機器人如何突破“恐怖谷效應”？

時間：2026-01-20 08:46:27

關鍵字： AI 人工智能人形機器人

手機看文章

掃描二維碼
隨時隨地手機看文章

[導讀]當人與人面對面交流時，唇部動作是核心關注焦點之一。迄今為止，機器人始終難以精準模擬唇部動作，而人類對自身面部神態(tài)的關注度極高，尤其對唇部動作更為敏感

當人與人面對面交流時，唇部動作是核心關注焦點之一。迄今為止，機器人始終難以精準模擬唇部動作，而人類對自身面部神態(tài)的關注度極高，尤其對唇部動作更為敏感——我們或許能包容機器人怪異的步態(tài)、笨拙的手部動作，但哪怕是極其細微的表情失誤，都很難被接受。這種嚴苛的評判標準，正是人們常說的“恐怖谷效應”。如今，美國研究人員開發(fā)的擬人面部機器人Emo，正試圖通過唇語同步與表情預判技術，打破這一桎梏。

核心突破：跨語言唇語同步與預判式表情系統(tǒng)

Emo的核心優(yōu)勢在于能將唇部動作與語音音頻精準同步，呈現(xiàn)出更貼近人類的自然表情，且系統(tǒng)具備跨語言泛化能力，可覆蓋法語、中文、阿拉伯語等多種語種。這款機器人旨在優(yōu)化人機社交交互體驗，不僅支持面部表情的非對稱呈現(xiàn)，硬件配置也較第一代Eva機器人實現(xiàn)全面升級。

具體來看，其面部采用磁吸式貼合設計，可驅(qū)動仿生皮膚靈活形變，相較傳統(tǒng)繩索傳動系統(tǒng)，控制精度大幅提升；同時面部嵌入高分辨率RGB攝像頭，能實現(xiàn)實時視覺感知，精準預判對話對象的表情變化；系統(tǒng)內(nèi)置的雙神經(jīng)網(wǎng)絡架構更是關鍵，其中自模型負責預測Emo自身的面部表情，交互模型則專注于預判人類對話者的表情。搭配23個面部表情驅(qū)動電機與3個頸部運動驅(qū)動電機，Emo可實現(xiàn)表情實時同步，與人類達成自然的表情呼應。

哥倫比亞研究人員表示，當前同類技術共有五種，而Emo所采用的新技術表現(xiàn)更優(yōu)，能最大程度縮小機器人唇部動作與理想?yún)⒖家曨l的差異?！霸摽蚣芸舍槍?1種語音結(jié)構各異的非英語語種，生成自然逼真的唇部動作。”研究團隊強調(diào)，這一技術未來有望廣泛應用于教育、養(yǎng)老等需要高頻人機交互的領域。

訓練與性能：視頻自主學習+超高幀率實時響應

在人機交互場景中，當前多數(shù)機器人采用被動響應模式，即人類做出動作后才模仿相應表情，交互體驗極為生硬。而預判式表情能提前預測人類情緒并生成對應表情，是實現(xiàn)真實、高情商人機交互的核心關鍵，比如機器人主動的微笑表情，就能有效增強人類對其的信任與社交聯(lián)結(jié)。

要實現(xiàn)這一目標，預判人類表情變化是Emo面臨的核心技術難點，唯有精準預判才能為動作執(zhí)行預留充足時間。為此，研究人員招募了45名受試者，錄制970段視頻數(shù)據(jù)，以此訓練出一套高效的預判式面部表情模型。該模型能捕捉人類面部表情的初始變化，并準確預測后續(xù)表情發(fā)展趨勢。在訓練過程中，輸入幀從表情峰值周圍的四個幀中隨機選取，標簽則由隨后的四個幀提供，確保了模型預測的精準性與泛化性。

出色的硬件與算法協(xié)同，帶來了極致的響應速度。在2019款蘋果MacBook Pro上，預判模型的運行幀率可達650幀/秒，逆模型的電機指令執(zhí)行幀率更是高達8000幀/秒，這使得機器人能在0.002秒內(nèi)完成表情生成。而人類面部表情的生成通常需要0.841±0.713秒，這為機器人實現(xiàn)實時表情響應預留了充足的緩沖時間。借助預判模型與逆模型的協(xié)同作用，機器人無需直接觀測目標面部，就能與人類實現(xiàn)面部表情的同步呈現(xiàn)。

值得一提的是，哥倫比亞團隊開發(fā)的系統(tǒng)首次實現(xiàn)了機器人通過自主學習掌握適用于說話、唱歌等任務的面部唇部動作。它不僅能清晰說出多種語言的詞匯，甚至還演唱了人工智能原創(chuàng)專輯《你好，世界》（Hello World）中的歌曲。機器人的學習過程極具“自主性”：先對著鏡子觀察自身影像，摸清26個面部驅(qū)動電機的操控方式，隨后通過觀看YouTube視頻，自主學會了模仿人類的唇部動作?！皺C器人系統(tǒng)與人類互動越頻繁，表現(xiàn)會越出色?！备鐐惐葋喆髮W教授霍德·利普森（Hod Lipson）表示。

挑戰(zhàn)與展望：攻克語音難題，邁向全面人機融合

讓機器人精準實現(xiàn)唇部動作，并非易事，主要面臨兩大核心挑戰(zhàn)：一是硬件支持，需要具備靈活變形能力的仿生皮膚和高性能微型驅(qū)動電機；二是技術層面，唇部運動是一套復雜的動態(tài)過程，其變化規(guī)律由一連串語音音節(jié)和音素共同決定。人類的唇部動作由幾十塊肌肉協(xié)同驅(qū)動，這使得人形機器人的面部動作極易顯得生硬、不自然，進而引發(fā)“恐怖谷效應”。

目前來看，哥倫比亞團隊開發(fā)的系統(tǒng)在唇部動作模擬上仍有提升空間。利普森坦言：“我們在模擬爆破音（比如B）和噘唇音（如字母W的發(fā)音）時，遇到不少困難，但假以時日，經(jīng)過反復訓練，未來會得到提升?！贝送猓摷夹g還存在一定的文化局限性，比如在不同文化背景下，人類的表情表達與眼神交流習慣存在差異，單純的表情模仿難以適配所有場景。但研究團隊認為，對人類表情的預判能力，已是機器人實現(xiàn)社交能力發(fā)展的關鍵第一步。

當今機器人領域的研究重點多集中在腿部、手部動作上，但利普森判斷，未來只要涉及人機交互場景，面部表情就不可或缺?！拔磥硭腥诵螜C器人都會配備面部結(jié)構，而當它們真正擁有面部時，必須靈活地轉(zhuǎn)動眼球、活動嘴唇，否則就會永遠深陷恐怖谷效應之中?！保ㄐ〉叮?

聲明：該篇文章為本站原創(chuàng)，未經(jīng)授權不予轉(zhuǎn)載，侵權必究。

換一批

與傳統(tǒng)的驅(qū)動方式相比，共陰恒流驅(qū)動在能效有哪些優(yōu)勢

LED驅(qū)動電源的輸入包括高壓工頻交流(即市電)、低壓直流、高壓直流、低壓高頻交流(如電子變壓器的輸出)等。

關鍵字：驅(qū)動電源

[電源]

工業(yè)電機驅(qū)動電源設計：反電動勢抑制與過流保護的集成方案

在工業(yè)自動化蓬勃發(fā)展的當下，工業(yè)電機作為核心動力設備，其驅(qū)動電源的性能直接關系到整個系統(tǒng)的穩(wěn)定性和可靠性。其中，反電動勢抑制與過流保護是驅(qū)動電源設計中至關重要的兩個環(huán)節(jié)，集成化方案的設計成為提升電機驅(qū)動性能的關鍵。

關鍵字：工業(yè)電機驅(qū)動電源

[電源]