Multi-IF基准 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

指令跟随大比拼：Meta 发布多轮多语言基准 Multi-IF，覆盖 8 种语言超 4500 种任务

正文：Meta近日发布了Multi-IF基准，涵盖8种语言、4501个三轮对话任务，旨在评估大语言模型（LLMs）在多轮对话和多语言环境下的指令遵循能力。实验结果显示，多数模型在多轮对话中准确率显著下降，最佳模型o1-preview在三轮对话中的准确率从87.7%降至70.7%。此外，非拉丁文字语言如中文、俄语和印地语的准确率明显低于英语。该基准通过多轮扩展和多语言适配，揭示了当前LLMs在处理复杂多轮和多语言指令任务时面临的挑战，为未来模型改进提供了重要参考。论文链接为，数据集下载链接为。

原文链接