智能機(jī)器人能一筆一劃臨摹出蒙娜麗莎還能模仿你的筆跡
書面語言是人類區(qū)別于其他生物的重要特點(diǎn),有的生物可以和人類一樣彼此交談,但是只有人類可以寫下有自己風(fēng)格的字符:精巧的漢字,復(fù)雜的花體字母,每個(gè)人的筆跡都是獨(dú)一無二的。但現(xiàn)在,布朗大學(xué)研究人員研制的新型機(jī)器人的已經(jīng)可以做到憑借一己之力學(xué)會(huì)像人類一樣寫字和畫圖。
Atsunobu Kotani是布朗大學(xué)的本科生,他在老師的幫助下創(chuàng)建了一種深度學(xué)習(xí)算法,使機(jī)器人能夠相當(dāng)準(zhǔn)確地確定使用哪種筆畫,以及以何種順序生成手寫單詞和手繪圖像。機(jī)器人最初使用日文進(jìn)行訓(xùn)練,隨后可以用算法“自學(xué)”,自行確定筆畫順序和位置,臨摹出它未見過的語言中的單詞,寫出包括中文、英文、印地語、韓語、希臘語、烏爾都語的文字,復(fù)制字母和筆畫的精確度可達(dá)93%。
機(jī)器人還可以復(fù)寫一些簡單的線條草圖,完成了例如對蒙娜麗莎草圖的臨摹。在不遠(yuǎn)的未來,機(jī)器人就能在職場上幫我們記筆記、畫流程圖,成為我們的得力助手。
但研究人員也提到,目前機(jī)器人還存在不足,比如還做不到像左撇子一樣從右往左進(jìn)行書寫。書寫是一種看似簡單,實(shí)際上是精心設(shè)計(jì)的復(fù)雜動(dòng)作組合過程。當(dāng)寫一個(gè)單詞時(shí),你必須知道在哪里落下筆,握著它畫一條線,之后提起筆,結(jié)束這條線。接著在什么時(shí)候拿起你的筆,再畫一條線。
模仿他人的筆跡需要學(xué)習(xí)每一個(gè)字符當(dāng)中的筆觸、線條寬度、書寫習(xí)慣、字體傾斜程度等等因素,才能成功復(fù)制其書寫。
就像機(jī)器人學(xué)習(xí)在人類看來簡單的兩條腿走路花了很久的時(shí)間一樣,讓機(jī)器人學(xué)會(huì)使用類似于人們寫作方式來書寫是一個(gè)非常難以實(shí)現(xiàn)的目標(biāo)。機(jī)器不能以和人類一樣的方式觀察文字。比如,當(dāng)人看到字母“A”時(shí),是看到三條不同的線條,所以很容易知道要用三個(gè)筆畫重現(xiàn)它。但是機(jī)器只能看到一組像素,而Kotani的算法可以幫助將這些像素轉(zhuǎn)換為筆畫,從而讓機(jī)器可以像人類一樣順利寫出字母。
Kotani提出的用于分析字母的深度學(xué)習(xí)網(wǎng)絡(luò),可以再現(xiàn)書寫字母所需的一系列筆畫,然后告訴機(jī)器人完成每個(gè)筆畫要做的動(dòng)作。
因?yàn)橹皇桥R摹,無須理解字符背后的實(shí)際含義,所以機(jī)器人可以寫出任何語言,例如它能夠用十種不同語言編寫“hello”,這些語言背后使用的是完全不同的字符集。同樣的方法也可以應(yīng)用于任何類型的線條圖,如簡單的草圖。這種算法可以幫助機(jī)器人在未來更好地與人們互動(dòng)。
機(jī)器的學(xué)習(xí)系統(tǒng)包含兩個(gè)不同的模型,一個(gè)是“全局”模型,它允許機(jī)器人將文字作為一個(gè)整體查看圖像,以幫助它確定特定單詞或角色的可能起點(diǎn)位置,以及如何移動(dòng)到下一個(gè)單詞。另一個(gè)是“本地”模型,可以幫助機(jī)器人完成當(dāng)前如何處理手中的筆,即進(jìn)行正確的移動(dòng),放置等。
為了訓(xùn)練機(jī)器人,研究人員提供了一個(gè)日語字符語料庫,并提供了有關(guān)字符的組合筆畫應(yīng)如何書寫的信息。之后它自行學(xué)習(xí)創(chuàng)建了一個(gè)模型,該模型可以查看字符的像素并預(yù)測開始每一個(gè)字符筆畫的位置,然后給出在繪制筆畫時(shí)需要移動(dòng)的位置信息。這使得機(jī)器人能夠?qū)懗鲆郧皬奈匆娺^的語言,這種自學(xué)能力也讓研究人員也十分意外。
研究人員分別在白板上通過印地語,泰米爾語和意第緒語等各種語言寫下“你好”,試圖混淆機(jī)器人。結(jié)果機(jī)器人做到了通過機(jī)器視覺對每種不同的語言文字進(jìn)行觀察,然后分別編寫單詞副本,即使它之前只會(huì)寫日語。除了印刷體之外,機(jī)器人還進(jìn)行了英文草書的書寫,結(jié)果一樣出色。
機(jī)器人還可以辨別6歲孩童寫下的稚嫩文字,在一群幼兒園的兒童參觀實(shí)驗(yàn)室時(shí),機(jī)器人輕松地模仿了這些孩子的筆跡。
圖像也可以臨摹,Kotani在白板上畫下一副蒙娜麗莎的粗略草圖之后,機(jī)器人也進(jìn)行了惟妙惟肖的復(fù)寫。而且和噴墨打印機(jī)不同,這臺機(jī)器人畫畫并不是一行一行地畫出來,而是可以模仿人類畫畫的筆觸一筆一畫地臨摹。
但因?yàn)檠芯咳藛T訓(xùn)練機(jī)器人用的是現(xiàn)代日語,書寫順序是從左到右進(jìn)行,之后推廣到的英語也是以相同的方向?qū)懙摹K阅壳皺C(jī)器人進(jìn)行從右到左的書寫還不夠熟練。盡管如此,它仍然是語言互連的一個(gè)很好證明,許多不同的腳本來自同一個(gè)人(機(jī)器人)手中。另外這也是朝著開辟人與機(jī)器之間新的溝通方式邁出的重要一步,以后人與機(jī)器也許可以通過手寫文字進(jìn)行交流。





