LLaMA-3.1-70B - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

Reflection 70B AI 模型“塌房”：第三方基准测试结果不佳，不如 LLaMA-3.1-70B

科技媒体The Decoder于9月10日发布报道，指出对比平台Artificial Analysis数据显示，Reflection 70B AI模型在基准测试中的表现不如Meta的LLaMA-3.1-70B。Reflection公司CEO马特·舒默解释，上传至Hugging Face的模型权重存在问题，导致测试结果不佳。尽管内部托管的模型表现出色，但公开API的测试结果仍低于LLaMA-3.1-70B。舒默已向部分用户提供了访问内部模型的权限，以重做测试。此外，舒默透露其公司OthersideAI计划发布基于LLaMA 3.1 450B的更大、更强大的模型，声称这将是历史上最优秀的语言模型。相关阅读链接提及该模型在技术上的突破，包括纠正自身幻觉的能力和数学测试得分99.2%。

原文链接