
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
正文:Meta近日发布了Multi-IF基准,涵盖8种语言、4501个三轮对话任务,旨在评估大语言模型(LLMs)在多轮对话和多语言环境下的指令遵循能力。实验结果显示,多数模型在多轮对话中准确率显著下降,最佳模型o1-preview在三轮对话中的准确率从87.7%降至70.7%。此外,非拉丁文字语言如中文、俄语和印地语的准确率明显低于英语。该基准通过多轮扩展和多语言适配,揭示了当前LLMs在处理复杂多轮和多语言指令任务时面临的挑战,为未来模型改进提供了重要参考。论文链接为,数据集下载链接为。
原文链接
加载更多

暂无内容