首个AI翻译实战榜单出炉!GPT-4o稳坐天花板,Qwen擅长文化与开源
AI翻译哪家强?首个应用型AI翻译测评榜单TransBench在OpenCompass上线,由阿里国际AI Business团队联合上海人工智能实验室、北京语言大学发布。
TransBench新增幻觉率、文化禁忌词、敬语规范等指标,针对大模型翻译常见问题进行实战考核。数据集涵盖中、英、法、日、韩、西班牙语等多种语言,并已全面开源。
综合得分前三为:GPT-4o、DeepL Translate、GPT-4-Turbo。DeepL Translate是专业机器翻译模型,表现突出。Qwen系列在文化特性方面领先,Qwen2.5-0.5B-Instruct和Qwen2.5-1.5B-Instruct分列第一、二名。
TransBench从通用标准、电商文化和文化特性三方面评估翻译能力,首次提出行业垂直和跨文化特性标准。榜单基于阿里国际真实用户反馈总结提炼,Marco MT作为首个大规模商用翻译大模型,已服务超50万卖家。
TransBench测评方法和数据集已开源,欢迎各机构参与打榜。评测网址:https://transbench.com/#/?lang=zh-cn
原文链接
本文链接:https://kx.umi6.com/article/19114.html
转载请注明文章出处
相关推荐
.png)
换一换
日本大阪将在多座车站部署实时语音识别系统:透明显示屏形态,支持 23 种语言翻译
2024-07-05 12:43:41
受AI冲击,网文译者转型校对,收入缩水近半
2025-02-12 11:28:48
成本只有专业译者的 1/80,腾讯“AI 翻译公司”TransAgents 上线
2024-07-04 15:20:37
438 文章
65330 浏览
24小时热文
更多

-
2025-07-19 18:55:37
-
2025-07-19 17:56:25
-
2025-07-19 17:55:01