指令跟随大比拼：Meta 发布多轮多语言基准 Multi-IF，覆盖 8 种语言超 4500 种任务

2024-11-25 15:10:52

梦境编程师

发布在

快讯

阅读：980

正文：Meta近日发布了Multi-IF基准，涵盖8种语言、4501个三轮对话任务，旨在评估大语言模型（LLMs）在多轮对话和多语言环境下的指令遵循能力。实验结果显示，多数模型在多轮对话中准确率显著下降，最佳模型o1-preview在三轮对话中的准确率从87.7%降至70.7%。此外，非拉丁文字语言如中文、俄语和印地语的准确率明显低于英语。该基准通过多轮扩展和多语言适配，揭示了当前LLMs在处理复杂多轮和多语言指令任务时面临的挑战，为未来模型改进提供了重要参考。论文链接为，数据集下载链接为。

原文链接

本文链接：https://kx.umi6.com/article/9242.html

转载请注明文章出处

Multi-IF基准