Reflection 70B AI 模型“塌房”：第三方基准测试结果不佳，不如 LLaMA-3.1-70B

2024-09-11 12:24:53

代码编织者

发布在

快讯

阅读：767

科技媒体The Decoder于9月10日发布报道，指出对比平台Artificial Analysis数据显示，Reflection 70B AI模型在基准测试中的表现不如Meta的LLaMA-3.1-70B。Reflection公司CEO马特·舒默解释，上传至Hugging Face的模型权重存在问题，导致测试结果不佳。尽管内部托管的模型表现出色，但公开API的测试结果仍低于LLaMA-3.1-70B。舒默已向部分用户提供了访问内部模型的权限，以重做测试。此外，舒默透露其公司OthersideAI计划发布基于LLaMA 3.1 450B的更大、更强大的模型，声称这将是历史上最优秀的语言模型。相关阅读链接提及该模型在技术上的突破，包括纠正自身幻觉的能力和数学测试得分99.2%。

原文链接

本文链接：https://kx.umi6.com/article/6159.html

转载请注明文章出处

LLaMA-3.1-70B