大模型榜单 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

现在的大模型榜单，真就没一个可信的

大模型榜单风波：Reflection 70B，曾被誉为开源新王，仅用3周由两人团队打造，宣称在各项基准测试中超越GPT-4o、Llama 3.1等。然而，经过深入调查，发现其存在数据造假与API欺骗行为，真相令人震惊。评测结果显示，模型性能与宣称不符，甚至与Claude 3.5回复内容一致，且刻意屏蔽提及Claude的对话。此事件揭示了AI领域榜单存在的问题——刷榜现象严重，榜单可信度堪忧。随着更多质疑声浪，大模型评测体系的透明度与公正性成为业界关注焦点。这一事件提醒我们，AI技术发展应以真实性能与创新为本，而非仅追求表面的排名与声量。

原文链接