AI是怎樣從你的聲音聽(tīng)出你的長(zhǎng)相的
隨著人工智能技術(shù)的不斷發(fā)展,AI似乎變得越來(lái)越“無(wú)所不能”,只需要一滴唾液或者汗液,就能診斷你的壓力有多大;甚至還能夠能夠通過(guò)你的聲音,推測(cè)出你長(zhǎng)啥樣???
最近,麻省理工學(xué)院人工智能實(shí)驗(yàn)室(MIT CSAIL)發(fā)布了一項(xiàng)令人驚訝的研究——只需要聽(tīng)6秒的聲音片段,AI就能推斷出說(shuō)話者的容貌。
其實(shí),從聲音推斷一個(gè)人的長(zhǎng)相并不是玄學(xué),平時(shí)我們?cè)诖螂娫挄r(shí)會(huì)根據(jù)對(duì)方的聲音腦補(bǔ)出相貌特征,這是因?yàn)槟挲g、性別、嘴巴形狀、面部骨骼結(jié)構(gòu)等,都會(huì)影響人發(fā)出的聲音。此外,語(yǔ)言、口音、速度通常會(huì)體現(xiàn)出一個(gè)的民族、地域、文化特征。
AI 正是根據(jù)語(yǔ)音和相貌的關(guān)聯(lián)性做出推測(cè)。為此,研究人員提取了幾百萬(wàn)個(gè) YouTube 視頻,通過(guò)訓(xùn)練,讓深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)聲音和面部的相關(guān)性,找到說(shuō)話的人一些基本特征,并還原出相貌。在這個(gè)過(guò)程中,不需要人類標(biāo)記視頻,由模型自我監(jiān)督學(xué)習(xí)。
當(dāng)然,該研究也有翻車(chē)的時(shí)候。例如讓一個(gè)亞洲人分別說(shuō)英語(yǔ)和中文,結(jié)果分別得到了一張西方人面孔和一張中國(guó)人面孔。還例如變聲期之前的兒童,也會(huì)導(dǎo)致模型誤判性別發(fā)生錯(cuò)誤。





