本文來源:大數(shù)據(jù)文摘
陳勝者,陽城人也 ,字涉。吳廣者,陽夏人也,字叔。 相信不少人還記得中學的時候全文背誦《陳涉世家》的痛苦,當然還有考試的時候讓你翻譯某一句名言,像是“燕雀安知鴻鵠之志哉”,或者“天下苦秦久矣。吾聞二世少子也,不當立,當立者乃公子扶蘇”。 如今,隨著AI技術(shù)的成熟,機器也逐漸在學習如何以人類的方式行動和思考。 既然如此,我們?yōu)楹尾豢伎妓纯丛贏I眼中,《陳涉世家》到底是個什么故事。 最近,B站上一位叫做“鷹目大人”的阿婆主就用谷歌翻譯對AI進行了一次隨堂測驗,只不過它的表現(xiàn)嘛,就見仁見智了。
比如,AI就把這句著名的“茍富貴,勿相忘”就翻譯成了“沒有錢的人,總是會被遺忘”。
“燕雀焉知鴻鵠之志”在AI看來竟然是,“蝎子給了我一個熱烈的擁抱”???
整個過程,文摘菌一邊黑人問號臉一邊笑到拍桌子。
有網(wǎng)友就指出,這波反諷竟然“翻譯出了本質(zhì)”。
還有網(wǎng)友“太喜歡了所以拼了一首詩”,大家可以猜猜每句話對應(yīng)到的原文是什么?
然后,再來對對答案,看看整本《陳涉世家》都被AI翻譯成了什么樣子?
機器翻譯為何如此困難?
其實不管是語種互譯,還是古文翻譯,都是機器翻譯的類別之一。 但是,如果機器翻譯翻車的情況持續(xù)發(fā)生,我們還能相信它嗎? 先別急,我們從NMT(neural machine translation,神經(jīng)網(wǎng)絡(luò)機器翻譯)的誕生開始講起,看看機器翻譯到底是個什么東西。 2013年,Nal Kalchbrenner和Phil Blunsom提出了一種用于機器翻譯的新型端到端編碼器-解碼器結(jié)構(gòu)。該模型可以使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)將給定的一段源文本編碼成一個連續(xù)的向量,然后再使用循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)作為解碼器將該狀態(tài)向量轉(zhuǎn)換成目標語言。 這一研究成果的發(fā)布可以說是標志著NMT的誕生,雖然在那之后也有不少研究者進行改進,但是仍然缺乏對模型的理解。比如,經(jīng)常出現(xiàn)的問題包括但不限于訓練和解碼過程緩慢;對同一個詞的翻譯風格不一致;翻譯結(jié)果存在超出詞匯表(out-of-vocabulary)的問題;黑箱的神經(jīng)網(wǎng)絡(luò)機制的可解釋性很差;訓練所用的參數(shù)大多數(shù)是根據(jù)經(jīng)驗選擇的。
NMT和SMT對比
機器翻譯頻繁翻車,微信谷歌無一幸免
去年3月,微信翻譯的頻繁翻車事件得到了人們的關(guān)注,機器翻譯的不確定性同時也被更多人所了解。 目前,機器翻譯領(lǐng)域主要使用的NMT架構(gòu)都差不多,一方面問題出在解碼器語言模型,使用的語料讓它學習到了這些最大概率出現(xiàn)的詞。微信團隊在處理的過程中似乎沒有對“特殊情況”進行處理,于是我們就能看到這樣的翻譯發(fā)生:
如果添加了特殊詞的copy機制,完全可以把無法翻譯的單詞不進行翻譯,直接copy過去。也就是說,一個聰明的模型應(yīng)該知道哪些應(yīng)該翻譯,哪些不應(yīng)該翻譯。 隨后,微信也針對這一問題進行了修復(fù),對于敏感詞“caixukun”或者句式“you are so……”進行原句返回。
除了解碼器語言模型外,問題可能更多出現(xiàn)在語料庫上,現(xiàn)在業(yè)界所做的機器翻譯很大程度上靠語料“懟”,只要平行語料數(shù)量足夠多,質(zhì)量足夠好, 一般的系統(tǒng)也可以訓練出很好的結(jié)果。 不過,如果訓練語料多來自電影字幕、多語言會議等材料,那么模型最終呈現(xiàn)的翻譯內(nèi)容也會相對應(yīng)比較“活潑”和“口語化”。面對庫中不存在的詞,比如caixunkun,算法會自動匹配最經(jīng)常出現(xiàn),或者在同語境下最容易匹配的內(nèi)容,比如形容詞“帥哥”或“傻蛋”。 當然除了微信,被業(yè)界視為先驅(qū)的谷歌也發(fā)生過類似的翻車案例。 此前就有Reddit網(wǎng)友指出,谷歌翻譯在學習過程中可能受到了輸入來源的影響,將一些意味不明的語句翻譯成了如圣經(jīng)一般的語言。比如這個:
英文大意為:世界末日時鐘在12點3分鐘,我們正在經(jīng)歷世界上的人物和戲劇性的發(fā)展,這表明我們越來越接近末日和耶穌的回歸。 哈佛大學助理教授、研究自然語言處理和計算機翻譯的Andrew Rush認為,這些神秘的翻譯結(jié)果可能和谷歌幾年前采用的“神經(jīng)機器翻譯”技術(shù)有關(guān)。他表示,在神經(jīng)機器翻譯中,系統(tǒng)訓練用了一種語言的大量文本來和另一種語言進行相應(yīng)翻譯,以在兩者之間創(chuàng)建模型。但當輸入的是無意義內(nèi)容時,系統(tǒng)就會出現(xiàn)“幻覺性”的輸出結(jié)果。 在去年AI Time的一次辯論中,中科院自動化研究所研究員宗成慶就表示,機器翻譯近幾年的進步確實很大,但是其需要基于場景和任務(wù)。機器翻譯在一些場景下確實能幫助人,比如旅游問路,但是在某些領(lǐng)域,比如高層次的翻譯,要對機器翻譯寄予太多的希望還為時過早。 東北大學計算機學院教授朱靖波根據(jù)自己的經(jīng)驗列舉出好的機器翻譯系統(tǒng)需要的三個東西:一是擴大訓練數(shù)據(jù)規(guī)模,提高品質(zhì);二是不斷創(chuàng)新技術(shù);三是根據(jù)問題不斷打磨,三者缺一不可。 看來,機器翻譯未來還有很長一段路要走?。?/span>
免責聲明:本文內(nèi)容由21ic獲得授權(quán)后發(fā)布,版權(quán)歸原作者所有,本平臺僅提供信息存儲服務(wù)。文章僅代表作者個人觀點,不代表本平臺立場,如有問題,請聯(lián)系我們,謝謝!





