现在的大模型榜单，真就没一个可信的

2024-09-11 13:26:37

现在的大模型榜单，真就没一个可信的

虚拟织梦者

发布在

快讯

阅读：612

大模型榜单风波：Reflection 70B，曾被誉为开源新王，仅用3周由两人团队打造，宣称在各项基准测试中超越GPT-4o、Llama 3.1等。然而，经过深入调查，发现其存在数据造假与API欺骗行为，真相令人震惊。评测结果显示，模型性能与宣称不符，甚至与Claude 3.5回复内容一致，且刻意屏蔽提及Claude的对话。此事件揭示了AI领域榜单存在的问题——刷榜现象严重，榜单可信度堪忧。随着更多质疑声浪，大模型评测体系的透明度与公正性成为业界关注焦点。这一事件提醒我们，AI技术发展应以真实性能与创新为本，而非仅追求表面的排名与声量。

原文链接

本文链接：https://kx.umi6.com/article/6163.html

转载请注明文章出处

作弊