調戲微軟文言文AI翻譯:“永不舍汝”、“其母之”是什麼鬼?

聽說微軟搞了個AI翻譯文言文?趕緊來試試,先來一段《曹劌論戰》的開頭。 我震驚了,居然能把“我”翻譯成“魯國”,“公”翻譯成“魯庄公”。難道AI除了學習文言文詞彙和語法,還熟讀了《左傳》?

夢晨 蕭簫 發自 凹非寺

調戲微軟文言文AI翻譯:“永不舍汝”、“其母之”是什麼鬼?

換成詩表現又將如何?

調戲微軟文言文AI翻譯:“永不舍汝”、“其母之”是什麼鬼?

雖然翻譯出來不是很有文學性,但AI正確理解到了“望着同一個月亮”這層意思。

嚯,這個翻譯極大地引起了我的興趣。

如果百度和微軟一起上考場

既然翻譯出正確詞意不是太難,那文言文中的特殊語法AI能否掌握?

為了更好地評估微軟翻譯的能力,這裡請出老牌選手百度翻譯,讓它們比試一下。

第一題:秦時明月漢時關

這裡考點是互文的修辭方法,應該理解成秦漢時期的明月、秦漢時期的關口。

百度的答案是:

調戲微軟文言文AI翻譯:“永不舍汝”、“其母之”是什麼鬼?

看來百度沒理解到位,再看看微軟的答案:

調戲微軟文言文AI翻譯:“永不舍汝”、“其母之”是什麼鬼?

微軟正確理解了互文,率先拿下1分。

第二題:春風又綠江南岸

這句的考點是詞類活用,綠本來是個形容詞,在這裡用作動詞。

還是百度先來:

調戲微軟文言文AI翻譯:“永不舍汝”、“其母之”是什麼鬼?

沒問題,接下來是微軟:

調戲微軟文言文AI翻譯:“永不舍汝”、“其母之”是什麼鬼?

等一下,雖然綠用作動詞翻譯對了,可是後面怎麼多了一個“可是”?

難道……把後半句詩也輸進去試試:

調戲微軟文言文AI翻譯:“永不舍汝”、“其母之”是什麼鬼?

果然如此,看來微軟翻譯在用整句進行訓練的時候掌握了句與句之間的轉折關係,後來不知怎麼又算到前半句里了。

調戲微軟文言文AI翻譯:“永不舍汝”、“其母之”是什麼鬼?

這次百度扳回一局,1:1平。

最後一題考驗一下文言文中的另一個常見語法現象——倒裝

比如《鄒忌諷齊王納諫》中的“我孰與城北徐公美?”

按慣例百度先:

調戲微軟文言文AI翻譯:“永不舍汝”、“其母之”是什麼鬼?

然後是微軟:

調戲微軟文言文AI翻譯:“永不舍汝”、“其母之”是什麼鬼?

看來兩個AI都學會了倒裝句的用法,最終結果2:2平,各有千秋。

微軟翻譯雖然多學會了一個互文,但畢竟還是年輕選手,對句子之間關係的處理需要再練習。

接下來挑戰一下微軟文言文翻譯的極限。

比如維基百科其實就有個文言文版叫維基大典,裡面剛好有微軟的詞條。

調戲微軟文言文AI翻譯:“永不舍汝”、“其母之”是什麼鬼?

來試試讓微軟AI翻譯一下自己公司的介紹:

調戲微軟文言文AI翻譯:“永不舍汝”、“其母之”是什麼鬼?

看起來現代的偽文言文對於這個剛出生的小AI來說還是太苛刻了。

雖然也特別訓練了“微軟”和“電腦”這種現代才出現的名詞,但遇到“一九七五年”這種古代不用的表達就不行了,前老闆比爾蓋茨的名字也沒認出來。

“立之者”這裡還按古文的語境腦補出一個“國君”,可能這就是過擬合吧。

說到現代的表達方式,其實這個翻譯工具還可以倒過來用,把白話文譯成文言文。

比如諸葛丞相那句“我從未見過有如此厚顏無恥之人!”要是用文言文說出來是不是就更對味了?

調戲微軟文言文AI翻譯:“永不舍汝”、“其母之”是什麼鬼?

那麼,這樣的模型是怎麼“煉成”的呢?

Transformer加成,專攻訓練數據

用AI搞文言文翻譯,確實不是頭一回見。

百度是最早用機器學習做文言文翻譯的,還申請過相關專利:“一種在白話文與文言文之間進行文體轉換的方法和設備”。

相關文言文翻譯的模型也不少,從機器學習、RNN到Transformer都有,像微軟這次採用的,就是Transformer模型:

調戲微軟文言文AI翻譯:“永不舍汝”、“其母之”是什麼鬼?

△圖源:微軟研究院AI頭條

不過,文言文翻譯中的訓練數據,卻一直是個難點。

相比於其他主流語言(中文現代文、英文等),文言文可以說是訓練數據極少,同時還存在句式變換、繁簡混合等問題,造成翻譯的生硬。

這次微軟的文言文翻譯,主要就解決了四個方面的數據問題:

其一,針對數據量不足,利用相同字詞進行數據合成和增強。文言文和現代文有一些相同含義的字詞,如果對這些詞語進行召回、對齊,再擴展到短詞短句,就能合成大量可用的訓練數據。

其二,針對句式變換不靈活,對數據格式進行變形,提升魯棒性。文言文斷句和現代文不太一樣,為此研究人員通過數據格式變形,來擴大訓練數據量,讓模型也學會翻譯類似語句。

其三,針對字體識別不力,用簡繁混合數據訓練,提升模型識別能力。為了讓機器學習能同時識別簡繁混合的文言文,研究人員在訓練模型時會將簡體中文和繁體中文數據混合在一起進行訓練,確保翻譯模型不出錯。

其四,針對現代文的“新詞”,專門建立相關數據集和識別模型,確保不“亂翻譯”。為了避免模型在遇到現代文中的“高鐵、電腦、互聯網”這種詞時出現混亂(例如將高鐵翻譯成高處的鐵塊),研究人員建了一個模型,專門用來識別這些新詞。除了新詞,也針對博客、論壇、微博等新文體進行訓練。

調戲微軟文言文AI翻譯:“永不舍汝”、“其母之”是什麼鬼?

然而這都還只是文言文和中文之間的互譯,整點英文試試?

英譯中,bug藏不住了

這次微軟的文言文翻譯是直接整合到了Bing翻譯里,難道還可以把文言文翻譯成外語?

先挑戰一下單個的英文句子:

Never gonna give you up

調戲微軟文言文AI翻譯:“永不舍汝”、“其母之”是什麼鬼?

調戲微軟文言文AI翻譯:“永不舍汝”、“其母之”是什麼鬼?

看來簡單句沒有難倒AI,我們提升一下難度,用一首比較著名的英文詩“當你老了”試試:

調戲微軟文言文AI翻譯:“永不舍汝”、“其母之”是什麼鬼?

等等,“灰暗”、“陰景深”、“彎下腰在酒邊”……這都是什麼鬼?

調戲微軟文言文AI翻譯:“永不舍汝”、“其母之”是什麼鬼?

簡單的句子似乎還好,然而一到長句子,怎麼就翻譯成這樣了?

不過,微軟也說過,這次主要實現的是文言文和現代文互譯,說明其他語言在翻譯成文言文之前,應該也需要先翻譯成現代文。

那來看看微軟的英譯中效果怎麼樣:

調戲微軟文言文AI翻譯:“永不舍汝”、“其母之”是什麼鬼?

破案了,微軟的英譯中確實不太行……可能也是導致英文翻譯成文言文出現失誤的原因。

相比之下,從文言文翻譯現代文、再翻譯到中文的效果要稍微好一點。

調戲微軟文言文AI翻譯:“永不舍汝”、“其母之”是什麼鬼?

順帶一提,雖然正經的英文字句翻譯得不太行,不過在這種字詞的翻譯上……竟然還有點文藝?

調戲微軟文言文AI翻譯:“永不舍汝”、“其母之”是什麼鬼?

看來以後可以和翻譯模型學習如何優雅地罵人了。(手動狗頭)

如果大家還調戲出了什麼好玩的翻譯,歡迎留言~

微軟文言文翻譯地址:

https://cn.bing.com/translator

參考鏈接:

[1]https://weibo.com/msra?profile_ftype=1&is_all=1#1630370728811

[2]https://mp.weixin.qq.com/s/5cpBuUXfeb0r13JSyNuS_Q

(0)
上一篇 2021-08-31 15:47
下一篇 2021-08-31 15:48

相关推荐