日本黄色一级经典视频|伊人久久精品视频|亚洲黄色色周成人视频九九九|av免费网址黄色小短片|黄色Av无码亚洲成年人|亚洲1区2区3区无码|真人黄片免费观看|无码一级小说欧美日免费三级|日韩中文字幕91在线看|精品久久久无码中文字幕边打电话

當前位置:首頁 > 芯聞號 > 極客網(wǎng)
[導讀]當人與人面對面交流時,唇部動作是核心關注焦點之一。迄今為止,機器人始終難以精準模擬唇部動作,而人類對自身面部神態(tài)的關注度極高,尤其對唇部動作更為敏感

當人與人面對面交流時,唇部動作是核心關注焦點之一。迄今為止,機器人始終難以精準模擬唇部動作,而人類對自身面部神態(tài)的關注度極高,尤其對唇部動作更為敏感——我們或許能包容機器人怪異的步態(tài)、笨拙的手部動作,但哪怕是極其細微的表情失誤,都很難被接受。這種嚴苛的評判標準,正是人們常說的“恐怖谷效應”。如今,美國研究人員開發(fā)的擬人面部機器人Emo,正試圖通過唇語同步與表情預判技術,打破這一桎梏。

核心突破:跨語言唇語同步與預判式表情系統(tǒng)

Emo的核心優(yōu)勢在于能將唇部動作與語音音頻精準同步,呈現(xiàn)出更貼近人類的自然表情,且系統(tǒng)具備跨語言泛化能力,可覆蓋法語、中文、阿拉伯語等多種語種。這款機器人旨在優(yōu)化人機社交交互體驗,不僅支持面部表情的非對稱呈現(xiàn),硬件配置也較第一代Eva機器人實現(xiàn)全面升級。

具體來看,其面部采用磁吸式貼合設計,可驅(qū)動仿生皮膚靈活形變,相較傳統(tǒng)繩索傳動系統(tǒng),控制精度大幅提升;同時面部嵌入高分辨率RGB攝像頭,能實現(xiàn)實時視覺感知,精準預判對話對象的表情變化;系統(tǒng)內(nèi)置的雙神經(jīng)網(wǎng)絡架構更是關鍵,其中自模型負責預測Emo自身的面部表情,交互模型則專注于預判人類對話者的表情。搭配23個面部表情驅(qū)動電機與3個頸部運動驅(qū)動電機,Emo可實現(xiàn)表情實時同步,與人類達成自然的表情呼應。

哥倫比亞研究人員表示,當前同類技術共有五種,而Emo所采用的新技術表現(xiàn)更優(yōu),能最大程度縮小機器人唇部動作與理想?yún)⒖家曨l的差異?!霸摽蚣芸舍槍?1種語音結(jié)構各異的非英語語種,生成自然逼真的唇部動作。”研究團隊強調(diào),這一技術未來有望廣泛應用于教育、養(yǎng)老等需要高頻人機交互的領域。

訓練與性能:視頻自主學習+超高幀率實時響應

在人機交互場景中,當前多數(shù)機器人采用被動響應模式,即人類做出動作后才模仿相應表情,交互體驗極為生硬。而預判式表情能提前預測人類情緒并生成對應表情,是實現(xiàn)真實、高情商人機交互的核心關鍵,比如機器人主動的微笑表情,就能有效增強人類對其的信任與社交聯(lián)結(jié)。

要實現(xiàn)這一目標,預判人類表情變化是Emo面臨的核心技術難點,唯有精準預判才能為動作執(zhí)行預留充足時間。為此,研究人員招募了45名受試者,錄制970段視頻數(shù)據(jù),以此訓練出一套高效的預判式面部表情模型。該模型能捕捉人類面部表情的初始變化,并準確預測后續(xù)表情發(fā)展趨勢。在訓練過程中,輸入幀從表情峰值周圍的四個幀中隨機選取,標簽則由隨后的四個幀提供,確保了模型預測的精準性與泛化性。

出色的硬件與算法協(xié)同,帶來了極致的響應速度。在2019款蘋果MacBook Pro上,預判模型的運行幀率可達650幀/秒,逆模型的電機指令執(zhí)行幀率更是高達8000幀/秒,這使得機器人能在0.002秒內(nèi)完成表情生成。而人類面部表情的生成通常需要0.841±0.713秒,這為機器人實現(xiàn)實時表情響應預留了充足的緩沖時間。借助預判模型與逆模型的協(xié)同作用,機器人無需直接觀測目標面部,就能與人類實現(xiàn)面部表情的同步呈現(xiàn)。

值得一提的是,哥倫比亞團隊開發(fā)的系統(tǒng)首次實現(xiàn)了機器人通過自主學習掌握適用于說話、唱歌等任務的面部唇部動作。它不僅能清晰說出多種語言的詞匯,甚至還演唱了人工智能原創(chuàng)專輯《你好,世界》(Hello World)中的歌曲。機器人的學習過程極具“自主性”:先對著鏡子觀察自身影像,摸清26個面部驅(qū)動電機的操控方式,隨后通過觀看YouTube視頻,自主學會了模仿人類的唇部動作?!皺C器人系統(tǒng)與人類互動越頻繁,表現(xiàn)會越出色?!备鐐惐葋喆髮W教授霍德·利普森(Hod Lipson)表示。

挑戰(zhàn)與展望:攻克語音難題,邁向全面人機融合

讓機器人精準實現(xiàn)唇部動作,并非易事,主要面臨兩大核心挑戰(zhàn):一是硬件支持,需要具備靈活變形能力的仿生皮膚和高性能微型驅(qū)動電機;二是技術層面,唇部運動是一套復雜的動態(tài)過程,其變化規(guī)律由一連串語音音節(jié)和音素共同決定。人類的唇部動作由幾十塊肌肉協(xié)同驅(qū)動,這使得人形機器人的面部動作極易顯得生硬、不自然,進而引發(fā)“恐怖谷效應”。

目前來看,哥倫比亞團隊開發(fā)的系統(tǒng)在唇部動作模擬上仍有提升空間。利普森坦言:“我們在模擬爆破音(比如B)和噘唇音(如字母W的發(fā)音)時,遇到不少困難,但假以時日,經(jīng)過反復訓練,未來會得到提升?!贝送猓摷夹g還存在一定的文化局限性,比如在不同文化背景下,人類的表情表達與眼神交流習慣存在差異,單純的表情模仿難以適配所有場景。但研究團隊認為,對人類表情的預判能力,已是機器人實現(xiàn)社交能力發(fā)展的關鍵第一步。

當今機器人領域的研究重點多集中在腿部、手部動作上,但利普森判斷,未來只要涉及人機交互場景,面部表情就不可或缺?!拔磥硭腥诵螜C器人都會配備面部結(jié)構,而當它們真正擁有面部時,必須靈活地轉(zhuǎn)動眼球、活動嘴唇,否則就會永遠深陷恐怖谷效應之中?!保ㄐ〉叮?

聲明:該篇文章為本站原創(chuàng),未經(jīng)授權不予轉(zhuǎn)載,侵權必究。
換一批
延伸閱讀

LED驅(qū)動電源的輸入包括高壓工頻交流(即市電)、低壓直流、高壓直流、低壓高頻交流(如電子變壓器的輸出)等。

關鍵字: 驅(qū)動電源

在工業(yè)自動化蓬勃發(fā)展的當下,工業(yè)電機作為核心動力設備,其驅(qū)動電源的性能直接關系到整個系統(tǒng)的穩(wěn)定性和可靠性。其中,反電動勢抑制與過流保護是驅(qū)動電源設計中至關重要的兩個環(huán)節(jié),集成化方案的設計成為提升電機驅(qū)動性能的關鍵。

關鍵字: 工業(yè)電機 驅(qū)動電源

LED 驅(qū)動電源作為 LED 照明系統(tǒng)的 “心臟”,其穩(wěn)定性直接決定了整個照明設備的使用壽命。然而,在實際應用中,LED 驅(qū)動電源易損壞的問題卻十分常見,不僅增加了維護成本,還影響了用戶體驗。要解決這一問題,需從設計、生...

關鍵字: 驅(qū)動電源 照明系統(tǒng) 散熱

根據(jù)LED驅(qū)動電源的公式,電感內(nèi)電流波動大小和電感值成反比,輸出紋波和輸出電容值成反比。所以加大電感值和輸出電容值可以減小紋波。

關鍵字: LED 設計 驅(qū)動電源

電動汽車(EV)作為新能源汽車的重要代表,正逐漸成為全球汽車產(chǎn)業(yè)的重要發(fā)展方向。電動汽車的核心技術之一是電機驅(qū)動控制系統(tǒng),而絕緣柵雙極型晶體管(IGBT)作為電機驅(qū)動系統(tǒng)中的關鍵元件,其性能直接影響到電動汽車的動力性能和...

關鍵字: 電動汽車 新能源 驅(qū)動電源

在現(xiàn)代城市建設中,街道及停車場照明作為基礎設施的重要組成部分,其質(zhì)量和效率直接關系到城市的公共安全、居民生活質(zhì)量和能源利用效率。隨著科技的進步,高亮度白光發(fā)光二極管(LED)因其獨特的優(yōu)勢逐漸取代傳統(tǒng)光源,成為大功率區(qū)域...

關鍵字: 發(fā)光二極管 驅(qū)動電源 LED

LED通用照明設計工程師會遇到許多挑戰(zhàn),如功率密度、功率因數(shù)校正(PFC)、空間受限和可靠性等。

關鍵字: LED 驅(qū)動電源 功率因數(shù)校正

在LED照明技術日益普及的今天,LED驅(qū)動電源的電磁干擾(EMI)問題成為了一個不可忽視的挑戰(zhàn)。電磁干擾不僅會影響LED燈具的正常工作,還可能對周圍電子設備造成不利影響,甚至引發(fā)系統(tǒng)故障。因此,采取有效的硬件措施來解決L...

關鍵字: LED照明技術 電磁干擾 驅(qū)動電源

開關電源具有效率高的特性,而且開關電源的變壓器體積比串聯(lián)穩(wěn)壓型電源的要小得多,電源電路比較整潔,整機重量也有所下降,所以,現(xiàn)在的LED驅(qū)動電源

關鍵字: LED 驅(qū)動電源 開關電源

LED驅(qū)動電源是把電源供應轉(zhuǎn)換為特定的電壓電流以驅(qū)動LED發(fā)光的電壓轉(zhuǎn)換器,通常情況下:LED驅(qū)動電源的輸入包括高壓工頻交流(即市電)、低壓直流、高壓直流、低壓高頻交流(如電子變壓器的輸出)等。

關鍵字: LED 隧道燈 驅(qū)動電源
關閉