拿了30個冠軍的騰訊翻譯模型,實際表現又如何?

拿了30個冠軍的騰訊翻譯模型,實際表現又如何?

文章圖片

拿了30個冠軍的騰訊翻譯模型,實際表現又如何?

文章圖片

拿了30個冠軍的騰訊翻譯模型,實際表現又如何?

文章圖片

拿了30個冠軍的騰訊翻譯模型,實際表現又如何?

文章圖片

拿了30個冠軍的騰訊翻譯模型,實際表現又如何?

文章圖片

拿了30個冠軍的騰訊翻譯模型,實際表現又如何?


騰訊在Hugging Face上發布了一個專門用來翻譯的模型 , 叫做Hunyuan-MT-7B 。 根據它的官方介紹 , 這個翻譯模型在WMT25競賽中 , 該模型在參與的31個語言類別中有30個獲得了第一名 。 并且在同等規模模型中實現了行業領先的性能 。
而Hunyuan-MT-7B的集成模型Hunyuan-MT-Chimera-7B , 是業界首個開源翻譯集成模型 , 將翻譯質量提升至新高度 。 所謂集成模型 , 是指一種機器學習方法 。 它的核心思想是 , 不依賴單個模型進行預測或判斷 , 而是將多個模型的預測結果結合起來 , 從而獲得比任何一個單一模型都更好、更穩定的最終結果 。
那么回到翻譯這個事上來 , Chimera的邏輯就是讓MT-7B翻譯系統生成多個不同的翻譯候選版本 , 會分析這些候選版本 , 將它們各自的優點整合起來 。 最后 , 生成一個質量超越了任何一個單一候選版本的、更優的最終譯文 。
但是由于官網目前只有MT-7B這一種版本 , 因此本文只對該版本進行了測試 。
01
這里我使用的都是很常見的英語臺詞 , 出自各種經典讀物 。

出自《羅密歐與朱麗葉》 , 原文通常被翻譯為“姓名算得了什么?我們所稱的玫瑰 , 換個名字還是一樣芳香”

出自《雙城記》 , 這個翻譯的非常精準 。

出自《了不起的蓋茨比》 , 同樣也翻譯得非常精準 。
接下來 , 提高難度 , 我開始用一些現代英語臺詞來測試模型的翻譯效果 。

這句話是《英雄聯盟》戲命師 燼的選定語音 , 我于殺戮之中盛放 , 亦如黎明中的花朵 。

這句話來自電影《蜘蛛俠》 , 通常我們翻譯成“能力越大 , 責任越大” 。
既然英語差不多沒問題 , 就來試試日語和韓語 。

這是《游戲王5D'S》紅蓮魔龍召喚臺詞 , 王者的鼓動 , 現在于此列成陣勢!看著這天地鳴動的力量吧!同調召喚 , 吾之魂 , 紅蓮魔龍!日語中的鼓動(こどう)并非全部都是心跳的意思 , 也可以指脈動、律動、震動等等 。
今ここに列をなす , 要拆分出來理解 。 其中“今”代表此時此刻 , “ここに”是在這里 , 指的是地點 , “列をなす”是組成一列 , 而混元將其簡單譯作“此刻在此匯聚”并不是很合適 。
在韓語方面 , Hunyuan-MT-7B也表現得不錯 。

這是K/DA歌曲《POP STAR》中阿卡麗(田小娟)的第一句歌詞 , 即便是英語和韓語混雜 , MT-7B翻譯得依然非常準確 。

如果帶著Emoji一起翻譯 , 那么混元MT可能會出現吞字的情況 。 比如圖中的許秀虧桑提圣經 , 混元沒有翻譯出??201 。 ?? 是 ?? ???的縮寫 , ??是魔法 , ???是抵抗力 , 因此 ??201 的意思是魔法抗性是201 。
02
從官方發布的技術報告來看 , 騰訊混元MT設計的目標是提供高質量的多語言互譯能力 , 現階段支持包括中文、英文、日文以及哈薩克語、維吾爾語、蒙古語、藏語等5種中國少數民族語言在內的33種語言之間的雙向翻譯 。
混元MT的構建采用了一套完整的、系統化的訓練框架 , 這個框架將模型的訓練過程分解為幾個前后銜接的階段 , 旨在逐步提升模型的翻譯能力 。 整個流程從未經特定任務訓練的基礎模型開始 , 通過一系列專門針對機器翻譯的優化步驟 , 最終產出具備專業翻譯能力的模型 。
訓練流程的第一個環節是通用預訓練 。 這個階段的目標是構建一個具備廣泛知識和多語言基礎理解能力的基座模型 , 即Hunyuan-7B-Base 。 在訓練過程中 , 模型學習了包含中文、英文以及其他多種語言在內的數據 , 其中非中英文的多語言數據量達到了1.3萬億個tokens 。

為了確保訓練數據的質量和多樣性 , 研發團隊建立了一套數據質量評估體系 。 該體系從知識價值、真實性和寫作風格三個維度對文本進行打分 , 并根據數據來源的特性 , 對不同維度的權重進行調整 。 比如翻譯專業知識的網站 , 就會優先選擇知識價值得分高的數據 。
同時 , 為了保證內容覆蓋面的均衡 , 還建立了學科、行業和內容主題三個層面的標簽系統 , 用以調整不同領域數據的比例 , 并過濾掉低質量或不相關的內容 。 通過這一階段的訓練 , Hunyuan-7B-Base模型在通用知識、邏輯推理、數學、編程和多語言能力上奠定了基礎 。
接下來的第二個環節是面向機器翻譯的預訓練 。 這個階段在通用基座模型的基礎上 , 加入了大量為翻譯任務篩選的單語和雙語語料 , 目的是使模型的能力向翻譯領域傾斜和深化 。 單語數據主要來源于mC4和OSCAR等公開數據集 , 并經過了嚴格的清洗流程 , 包括語言識別、文檔級別去重以及使用語言模型過濾掉高困惑度的低質量文本 。
雙語平行語料則來自OPUS和ParaCrawl等公開數據集 , 團隊使用CometKiwi等無需參考譯文的質量評估工具進行篩選 , 以保證句對的質量 。 為了確定不同來源數據的最佳混合比例 , 團隊采用了一種名為RegMix的策略 , 通過在小規模模型上進行實驗 , 找到能夠使訓練損失最小化的數據配比 , 并將其應用于正式的訓練中 。
此外 , 為了防止模型在學習新知識時遺忘通用預訓練階段學到的能力 , 訓練數據中還包含了20%的原始預訓練語料作為重放數據 。
完成兩個預訓練階段后 , 模型進入第三個環節 , 即后訓練階段 。 這一階段通過監督微調(SFT)和強化學習(RL)等技術 , 將模型的翻譯能力進行精細化調優和對齊 。 監督微調分為兩個步驟 。 第一步使用約300萬句對的平行語料 , 旨在增強模型的基礎翻譯能力和遵循指令的能力 。
這些數據來自多個來源 , 包括Flores-200開發集、往年的WMT評測測試集、人工標注的中文與少數民族語言互譯數據集 , 以及使用DeepSeek-V3-0324模型生成的合成數據 。 數據同樣經過CometKiwi和GEMBA等質量評估指標的篩選 。 第二步則使用一個規模更小但質量更高的數據集(約26.8萬句對)對模型進行進一步的精煉 。 這些數據經過了更嚴格的篩選過程 , 并對多輪評估中得分一致性較差的樣本進行了人工校驗 。
監督微調之后是強化學習階段 。 機器翻譯任務的輸出具有語義多樣性 , 難以用簡單的規則進行評估 , 這為強化學習的應用帶來了挑戰 。 為解決此問題 , 混元MT采用了GRPO算法 , 并設計了一個復合獎勵函數 。

該獎勵函數包含三個部分:第一部分是質量感知獎勵 , 使用與人類譯員判斷高度相關的XCOMET-XXL評分和基于DeepSeek-V3-0324模型的GEMBA框架評分 , 共同評估翻譯的整體質量;第二部分是術語感知獎勵 , 它利用詞對齊工具提取源文和譯文中的術語等關鍵信息 , 通過計算二者的重合率來獎勵模型 , 促使模型更關注專業術語的準確翻譯;第三部分是重復懲罰 , 用于檢測和懲罰模型在訓練后期可能出現的重復輸出 , 以維持生成內容的多樣性和訓練的穩定性 。
經過這一系列后訓練流程 , 最終產出的模型即為Hunyuan-MT-7B 。
【拿了30個冠軍的騰訊翻譯模型,實際表現又如何?】03
在Hunyuan-MT-7B的基礎上 , 系統還構建了Hunyuan-MT-Chimera-7B模型 。 該模型采用了一種弱到強的強化學習方法 。 正如前文所述 , 其核心思想是在推理時 , 首先生成多個不同的翻譯候選結果 , 然后利用一個基于Hunyuan-MT-7B訓練的融合模型 , 將這些候選結果的優點整合起來 , 生成一個質量超越任何單一候選結果的最終譯文 。
這個融合模型的訓練同樣使用強化學習 , 其獎勵函數由XCOMET-XXL評分、DeepSeek-V3-0324評分和重復懲罰項構成 。 這種方法有效地利用了集成學習的優勢 , 在不增加基礎模型參數量的情況下 , 進一步提升了翻譯的上限 。
在性能表現上 , 混元MT系統在多個公開評測基準上進行了測試 。 結果顯示 , 無論是在WMT24pp還是FLORES-200等通用翻譯測試集上 , 7B參數規模的Hunyuan-MT-7B和Hunyuan-MT-Chimera-7B , 其翻譯質量均超過了現有的同等規模開源模型 , 也優于一些知名的商業翻譯系統和參數量遠大于它的通用大模型 。
特別是在中文與少數民族語言互譯這個方向上 , 混元MT的表現顯著優于所有其他對比模型 , 這體現了其在低資源語言翻譯方向上的針對性優化取得了成效 。 人工評測的結果也證實了這一點 , 在包含社交、郵件、購物、導航等多個生活場景的中英互譯測試中 , Hunyuan-MT-7B的翻譯質量與Gemini-2.5-Pro、DeepSeek-V3-0324等頂尖的大型模型處于同一水平 , 表明通過面向翻譯任務的系統性優化 , 中等規模的模型同樣可以達到很高的翻譯水準 。

    推薦閱讀