正文:Meta近日发布了Multi-IF基准,涵盖8种语言、4501个三轮对话任务,旨在评估大语言模型(LLMs)在多轮对话和多语言环境下的指令遵循能力。实验结果显示,多数模型在多轮对话中准确率显著下降,最佳模型o1-preview在三轮对话中的准确率从87.7%降至70.7%。此外,非拉丁文字语言如中文、俄语和印地语的准确率明显低于英语。该基准通过多轮扩展和多语言适配,揭示了当前LLMs在处理复杂多轮和多语言指令任务时面临的挑战,为未来模型改进提供了重要参考。论文链接为,数据集下载链接为。
原文链接
本文链接:https://kx.umi6.com/article/9242.html
转载请注明文章出处
相关推荐
换一换
苹果研究破解 AI“英语口音”难题,提升多语言自然性
2025-05-17 07:02:43
指令跟随大比拼:Meta 发布多轮多语言基准 Multi-IF,覆盖 8 种语言超 4500 种任务
2024-11-25 15:10:52
安卓版谷歌 Gemini Live 上线,助力 AI 开启全民语音聊天时代
2024-10-09 09:43:43
Mistral 发布内容审核 API:支持中文等 11 种语言,可分类仇恨言论等 9 大类目
2024-11-09 14:48:21
谷歌全网扒1000亿图像文本对,ViT大佬坐镇:数据Scaling潜力依旧
2025-02-13 18:12:26
智谱清言上线情感语音模型 GLM-4-Voice:可理解情感,有情绪表达和共鸣
2024-10-25 16:53:25
英伟达 4B 小模型击败 GPT-5 Pro!单任务成本仅后者 1/36
2025-12-08 16:36:14
智元第 5000 台人形机器人“灵犀 X2”量产下线,已具备批量出货能力
2025-12-08 17:37:43
山东省“十五五”规划建议:推动深海空天、具身智能、生物制造、脑机接口、量子科技、元宇宙、氢能等成为新的经济增长点
2025-12-08 09:20:01
众擎完成 A1+ 轮与 A2 轮融资,机器人 T800 全面启动规模化发售
2025-12-08 16:37:00
加快发展新质生产力 上海自动驾驶测试道路总里程超5200公里
2025-12-07 13:29:51
智能体A2A落地华为新旗舰,鸿蒙开发者新机遇来了
2025-12-06 12:27:36
豆包手机助手:已下线操作银行、互联网支付类APP的能力
2025-12-06 18:44:32
635 文章
384849 浏览
24小时热文
更多
-
2025-12-08 23:53:52 -
2025-12-08 22:52:38 -
2025-12-08 22:51:57