回顧阿裡翻譯平臺的進擊之路!

07-14

雷鋒網 AI 科技評論按:在百度翻譯,谷歌翻譯幾乎要霸占整個機器翻譯市場時,阿裡翻譯跳出來宣佈已成功研發阿裡雲 API 工具,可以將神經網絡翻譯訓練效率提升 5 倍,阿裡翻譯平臺將很快上線。希望阿裡翻譯以後也能走進我們的生活中。

眾所周知,馬雲爸爸在創立阿裡之前是做翻譯服務及開翻譯公司的。隨著近幾年阿裡的業務不斷擴大,全球化戰略進程加速,語言問題也成瞭最基礎的需求之一。尤其是跨境電商交易對多語言翻譯需求尤甚。此前阿裡在語言服務上做過不少努力,包括收購國內最大的人工翻譯平臺,但這遠遠不能滿足阿裡平臺上億級別客戶的需求。正當阿裡為此感到苦悶時,谷歌的神經網絡翻譯技術出現瞭,可以說是為阿裡的翻譯平臺插上瞭一對翅膀。

早在 2015 年 6 月份,阿裡就已收購國內最大的眾包翻譯平臺—— 365 翻譯。當時把阿裡翻譯平臺定位為阿裡巴巴的語言服務平臺,將瞄準人機結合模式,在語言服務領域進行更多創新。365 翻譯加入的確實為阿裡的跨境電商領域分擔瞭一些翻譯業務上的壓力。並且在機器翻譯領域,和電商相關的幾個主要語種中,其翻譯的準確率基本和谷歌翻譯持平。然而,阿裡語言服務平臺的野心並不止於此。他們想借助強大的人工翻譯團隊和電商大數據研發下一代基於神經網絡技術的翻譯平臺。

神經網絡翻譯技術是一種用於自動翻譯的端到端的學習方法,該方法能夠克服傳統的基於短語的翻譯系統的缺點,可以將整個輸入句子視作翻譯的基本單元。從 2016 年以來的學術界頂級會議上,幾乎全是圍繞 NMT 相關的創新工作,之後谷歌、微軟等巨頭公司相繼發佈 NMT 系統。

阿裡翻譯團隊也緊緊抓住這一機會於 2016 年 10 月起正式開始自主研發 NMT 模型,2016 年 11 月首次將 NMT 系統的輸出結果應用在中英消息通訊場景下的外部評測中並取得瞭不錯的成績,翻譯質量有瞭大幅度提升。

但是,由於 NMT(神經網絡機器翻譯)模型的結構復雜,且深度神經網絡模型本身的訓練過程一般又會涉及很大量的計算,因此 NMT 系統往往需要較長的訓練周期,例如,使用 3000 萬的訓練數據在單塊 GPU 卡上一般需要訓練 20 天以上,才能得到一個初步可用的模型。

基於上述問題,2017 年 2 月初開始,阿裡翻譯團隊和阿裡雲 Large Scale Learning(大規模學習)的穆琢團隊合作,共同開發支持分佈式訓練的 NMT 系統,並於 2017 年 3 月底完成瞭第一個版本的分佈式 NMT 系統。

在 2017 年 4 月份的英俄電商翻譯質量優化項目中,分佈式 NMT 系統大大提高瞭訓練速度,使模型訓練時間從 20 天縮短到瞭 4 天,為項目整體迭代和推進節省瞭很多時間成本。

圖:使用不同卡數時,在中英 100 萬訓練語料上獲得的收斂加速比

PAI 是阿裡推出全球化戰略 "NASA" 計劃後發佈的首個重磅工具,可以完全兼容全球主流的深度學習開源框架。同時,底層提供強大的雲端異構計算資源,包含 CPU、GPU、FPGA。在 GPU 方面,可靈活實現多卡調度。

除瞭基於 MA 的分佈式實現,增加 GPU 卡的數量,有不同的收斂加速比以外,阿裡翻譯項目組還嘗試瞭其他多種分佈式實現方法,也都獲得瞭不同程度的加速效果,包括 Downpour SGD、AllReduce SGD 以及使用瞭 BMUF ( Blockwise Model-Update Filtering, 一種針對 Model Average 方法的改進方案 ) 策略的 Model Average 方法。下圖中顯示,在硬件條件相同,BMUF 的收斂效果要比 MA ( 黃色柱狀)分佈式要好。

阿裡方面還表示:上一階段工作主要集中在模型訓練階段的加速策略上,接下來的工作主要分為兩方面:一方面是繼續挖掘分佈式訓練的加速潛力,通過系統與算法相結合的優化策略,最大化利用硬件資源,提升收斂加速比,並將分佈式優化策略和算法模型本身解耦,實現復雜深度學習模型分佈式加速功能的組件化和通用化。

另一方面,需要在現有的服務化方案的基礎上,進一步通過模型精度壓縮、網絡結構簡化等方式,在保證模型效果的同時,提高解碼速度,降低線上延時,進而增強線上服務能力,節約服務化所需的硬件成本。

阿裡雲 PAI 工具使阿裡翻譯平臺的神經網絡翻譯訓練效率提升 5 倍,確實非常厲害。這將大大加速阿裡翻譯平臺建設之路。正當雷鋒網編輯想對阿裡的翻譯質量來一個評測對比,點擊阿裡翻譯平臺官網:www.alifanyi.com 卻發現功能還未對外開放。

後來雷鋒網瞭解到:阿裡翻譯團隊還在破解線上服務處理延時的難題,平臺目前還在內測階段。不過雷鋒網編輯還是發現瞭一個能使用阿裡翻譯界面的網站。現在就來對百度翻譯,谷歌翻譯,阿裡翻譯做一個簡單的漢譯英測試。

百度翻譯:

谷歌翻譯:

阿裡翻譯:

為瞭能使阿裡翻譯體現出自己擁有電商大數據的優勢,特別選瞭一句跨境電商領域的句子:自有產品,經營主體自行生產或自有品牌的產品,以及外部采購以自己名義進行銷售的產品。從翻譯結果對比來看,阿裡翻譯似乎比百度和谷歌的翻譯好一點。接下裡進行第二項測試,英譯漢測試:

百度翻譯

谷歌翻譯

阿裡翻譯

這次阿裡翻譯似乎表現的不太好,表現最好的是百度翻譯。不過從一些關鍵詞的翻譯還是能體現出阿裡翻譯的特色,比如:jurisdiction,翻譯為 " 法域 ";buyer 和 seller 翻譯為買傢和賣傢。可以猜測阿裡翻譯在跨境電商等類似的特定場景下會表現的更好。總的來說,阿裡翻譯的漢譯英表現還不錯,但在英譯漢的情況下表現的不如谷歌翻譯和百度翻譯。

阿裡翻譯現在還沒上線,但憑借自己擁有海量的電商跨境交易數據和強大的 365 人工翻譯團隊,再加上阿裡雲 PAI 工具對神經網路翻譯訓練效率的提升,相信不久後阿裡翻譯會有一個質的飛躍,在機器翻譯領域占取一定的市場份額也不是沒有可能。希望阿裡翻譯平臺開放後能給用戶一個驚喜。

據雷鋒網瞭解:在阿裡巴巴內部,PAI 已經被廣泛使用。淘寶搜索使用 PAI 的參數服務器,可以把百億個特征的模型,分散到數十個乃至於上百個參數服務器上,打破規模瓶頸。最終實現搜索結果基於商品和用戶的特征進行排序。現在,阿裡翻譯團隊還在破解線上服務處理延時的難題,為神經網絡機器翻譯模型的大規模應用掃除最後障礙。

via 雷鋒網

精彩圖片
文章評論 相關閱讀
© 2016 看看新聞 http://www.kankannews.cc/
统计代码填到这里