人形機(jī)器人如何突破“恐怖谷效應(yīng)”?
當(dāng)人與人面對面交流時,唇部動作是核心關(guān)注焦點之一。迄今為止,機(jī)器人始終難以精準(zhǔn)模擬唇部動作,而人類對自身面部神態(tài)的關(guān)注度極高,尤其對唇部動作更為敏感——我們或許能包容機(jī)器人怪異的步態(tài)、笨拙的手部動作,但哪怕是極其細(xì)微的表情失誤,都很難被接受。這種嚴(yán)苛的評判標(biāo)準(zhǔn),正是人們常說的“恐怖谷效應(yīng)”。如今,美國研究人員開發(fā)的擬人面部機(jī)器人Emo,正試圖通過唇語同步與表情預(yù)判技術(shù),打破這一桎梏。
核心突破:跨語言唇語同步與預(yù)判式表情系統(tǒng)
Emo的核心優(yōu)勢在于能將唇部動作與語音音頻精準(zhǔn)同步,呈現(xiàn)出更貼近人類的自然表情,且系統(tǒng)具備跨語言泛化能力,可覆蓋法語、中文、阿拉伯語等多種語種。這款機(jī)器人旨在優(yōu)化人機(jī)社交交互體驗,不僅支持面部表情的非對稱呈現(xiàn),硬件配置也較第一代Eva機(jī)器人實現(xiàn)全面升級。
具體來看,其面部采用磁吸式貼合設(shè)計,可驅(qū)動仿生皮膚靈活形變,相較傳統(tǒng)繩索傳動系統(tǒng),控制精度大幅提升;同時面部嵌入高分辨率RGB攝像頭,能實現(xiàn)實時視覺感知,精準(zhǔn)預(yù)判對話對象的表情變化;系統(tǒng)內(nèi)置的雙神經(jīng)網(wǎng)絡(luò)架構(gòu)更是關(guān)鍵,其中自模型負(fù)責(zé)預(yù)測Emo自身的面部表情,交互模型則專注于預(yù)判人類對話者的表情。搭配23個面部表情驅(qū)動電機(jī)與3個頸部運動驅(qū)動電機(jī),Emo可實現(xiàn)表情實時同步,與人類達(dá)成自然的表情呼應(yīng)。
哥倫比亞研究人員表示,當(dāng)前同類技術(shù)共有五種,而Emo所采用的新技術(shù)表現(xiàn)更優(yōu),能最大程度縮小機(jī)器人唇部動作與理想?yún)⒖家曨l的差異?!霸摽蚣芸舍槍?1種語音結(jié)構(gòu)各異的非英語語種,生成自然逼真的唇部動作?!毖芯繄F(tuán)隊強(qiáng)調(diào),這一技術(shù)未來有望廣泛應(yīng)用于教育、養(yǎng)老等需要高頻人機(jī)交互的領(lǐng)域。
訓(xùn)練與性能:視頻自主學(xué)習(xí)+超高幀率實時響應(yīng)
在人機(jī)交互場景中,當(dāng)前多數(shù)機(jī)器人采用被動響應(yīng)模式,即人類做出動作后才模仿相應(yīng)表情,交互體驗極為生硬。而預(yù)判式表情能提前預(yù)測人類情緒并生成對應(yīng)表情,是實現(xiàn)真實、高情商人機(jī)交互的核心關(guān)鍵,比如機(jī)器人主動的微笑表情,就能有效增強(qiáng)人類對其的信任與社交聯(lián)結(jié)。
要實現(xiàn)這一目標(biāo),預(yù)判人類表情變化是Emo面臨的核心技術(shù)難點,唯有精準(zhǔn)預(yù)判才能為動作執(zhí)行預(yù)留充足時間。為此,研究人員招募了45名受試者,錄制970段視頻數(shù)據(jù),以此訓(xùn)練出一套高效的預(yù)判式面部表情模型。該模型能捕捉人類面部表情的初始變化,并準(zhǔn)確預(yù)測后續(xù)表情發(fā)展趨勢。在訓(xùn)練過程中,輸入幀從表情峰值周圍的四個幀中隨機(jī)選取,標(biāo)簽則由隨后的四個幀提供,確保了模型預(yù)測的精準(zhǔn)性與泛化性。
出色的硬件與算法協(xié)同,帶來了極致的響應(yīng)速度。在2019款蘋果MacBook Pro上,預(yù)判模型的運行幀率可達(dá)650幀/秒,逆模型的電機(jī)指令執(zhí)行幀率更是高達(dá)8000幀/秒,這使得機(jī)器人能在0.002秒內(nèi)完成表情生成。而人類面部表情的生成通常需要0.841±0.713秒,這為機(jī)器人實現(xiàn)實時表情響應(yīng)預(yù)留了充足的緩沖時間。借助預(yù)判模型與逆模型的協(xié)同作用,機(jī)器人無需直接觀測目標(biāo)面部,就能與人類實現(xiàn)面部表情的同步呈現(xiàn)。
值得一提的是,哥倫比亞團(tuán)隊開發(fā)的系統(tǒng)首次實現(xiàn)了機(jī)器人通過自主學(xué)習(xí)掌握適用于說話、唱歌等任務(wù)的面部唇部動作。它不僅能清晰說出多種語言的詞匯,甚至還演唱了人工智能原創(chuàng)專輯《你好,世界》(Hello World)中的歌曲。機(jī)器人的學(xué)習(xí)過程極具“自主性”:先對著鏡子觀察自身影像,摸清26個面部驅(qū)動電機(jī)的操控方式,隨后通過觀看YouTube視頻,自主學(xué)會了模仿人類的唇部動作?!皺C(jī)器人系統(tǒng)與人類互動越頻繁,表現(xiàn)會越出色?!备鐐惐葋喆髮W(xué)教授霍德·利普森(Hod Lipson)表示。
挑戰(zhàn)與展望:攻克語音難題,邁向全面人機(jī)融合
讓機(jī)器人精準(zhǔn)實現(xiàn)唇部動作,并非易事,主要面臨兩大核心挑戰(zhàn):一是硬件支持,需要具備靈活變形能力的仿生皮膚和高性能微型驅(qū)動電機(jī);二是技術(shù)層面,唇部運動是一套復(fù)雜的動態(tài)過程,其變化規(guī)律由一連串語音音節(jié)和音素共同決定。人類的唇部動作由幾十塊肌肉協(xié)同驅(qū)動,這使得人形機(jī)器人的面部動作極易顯得生硬、不自然,進(jìn)而引發(fā)“恐怖谷效應(yīng)”。
目前來看,哥倫比亞團(tuán)隊開發(fā)的系統(tǒng)在唇部動作模擬上仍有提升空間。利普森坦言:“我們在模擬爆破音(比如B)和噘唇音(如字母W的發(fā)音)時,遇到不少困難,但假以時日,經(jīng)過反復(fù)訓(xùn)練,未來會得到提升?!贝送猓摷夹g(shù)還存在一定的文化局限性,比如在不同文化背景下,人類的表情表達(dá)與眼神交流習(xí)慣存在差異,單純的表情模仿難以適配所有場景。但研究團(tuán)隊認(rèn)為,對人類表情的預(yù)判能力,已是機(jī)器人實現(xiàn)社交能力發(fā)展的關(guān)鍵第一步。
當(dāng)今機(jī)器人領(lǐng)域的研究重點多集中在腿部、手部動作上,但利普森判斷,未來只要涉及人機(jī)交互場景,面部表情就不可或缺。“未來所有人形機(jī)器人都會配備面部結(jié)構(gòu),而當(dāng)它們真正擁有面部時,必須靈活地轉(zhuǎn)動眼球、活動嘴唇,否則就會永遠(yuǎn)深陷恐怖谷效應(yīng)之中。”(小刀)





