WMT 是機(jī)器翻譯領(lǐng)域的國際頂級評測比賽之一,自2006年創(chuàng)辦至今,WMT已經(jīng)成功舉辦15屆。大賽每年都吸引了眾多來自全球的企業(yè)、科研機(jī)構(gòu)和高校所組成的頂尖團(tuán)隊。其中「中文-英文」翻譯任務(wù)是大賽歷年來競爭最激烈的領(lǐng)域,也是最大的看點(diǎn)之一,在歷屆冠軍中,微軟、騰訊翻譯君、搜狗都榜上有名。
在賽制上,組委會根據(jù)中英、英中、中日等不同翻譯任務(wù)提供測試集,參賽者在線提交機(jī)器翻譯結(jié)果,組委會將根據(jù)在國際上具有廣泛認(rèn)可度的BLEU自動評估指標(biāo)對參賽者提交的機(jī)器譯文和標(biāo)準(zhǔn)答案進(jìn)行擬合計算,擬合程度高者排在前面。
在本次大賽上,微信翻譯在技術(shù)上以更深和更寬的Transformer結(jié)構(gòu)(包括Self-attention和Average-attention)和 自研的Deep Transition結(jié)構(gòu)(DTMT)為基礎(chǔ),用融合領(lǐng)域內(nèi)知識的數(shù)據(jù)增強(qiáng)方法迭代生成高質(zhì)量的偽數(shù)據(jù),并利用Self-Bleu的組合剪枝策略集成模型并利用集成模型的知識蒸餾單模型,除了常規(guī)的交叉熵訓(xùn)練,還采用三種改進(jìn)的訓(xùn)練方法來緩解偏差問題,包括改進(jìn)的Scheduled Sampling訓(xùn)練方法、針對目標(biāo)端輸入的抗噪訓(xùn)練和更穩(wěn)定的最小化貝葉斯風(fēng)險訓(xùn)練。
除翻譯項目外,微信 AI 團(tuán)隊在其他領(lǐng)域也有建樹。包括 2018、2019 兩屆 DSTC 冠軍、 2019 年 RACE 中高考題冠軍、DROP 數(shù)學(xué)推理冠軍和 QuAC 多輪交互推理冠軍等。