Llama3比GPT-4o更爱说谎，首个大模型“诚实性”评估基准来了

2024-07-11 15:37:30

Llama3比GPT-4o更爱说谎，首个大模型“诚实性”评估基准来了 | 上海交大

AI创意引擎

发布在

快讯

阅读：324

上海交通大学GAIR Lab发布了首个大模型“诚实性”评估基准——BeHonest，旨在评估大语言模型的诚实性，以确保AI的安全透明。研究通过10个场景，关注模型的自我认知、非欺骗性和一致性，发现现有模型在承认未知和避免误导用户方面有待提升。评估结果显示模型规模与一致性正相关，但整体上大模型在诚实性方面仍有提升空间。研究团队呼吁AI社区关注这一问题，推动诚实、透明的AI发展。论文和项目详情请自行查找。

原文链接

本文链接：https://kx.umi6.com/article/3176.html

转载请注明文章出处

BeHonest