科技媒体The Decoder于9月10日发布报道,指出对比平台Artificial Analysis数据显示,Reflection 70B AI模型在基准测试中的表现不如Meta的LLaMA-3.1-70B。Reflection公司CEO马特·舒默解释,上传至Hugging Face的模型权重存在问题,导致测试结果不佳。尽管内部托管的模型表现出色,但公开API的测试结果仍低于LLaMA-3.1-70B。舒默已向部分用户提供了访问内部模型的权限,以重做测试。此外,舒默透露其公司OthersideAI计划发布基于LLaMA 3.1 450B的更大、更强大的模型,声称这将是历史上最优秀的语言模型。相关阅读链接提及该模型在技术上的突破,包括纠正自身幻觉的能力和数学测试得分99.2%。
原文链接
本文链接:https://kx.umi6.com/article/6159.html
转载请注明文章出处
相关推荐
换一换
OpenAI o3被曝智商高达157,比肩爱因斯坦,但却没法证明比人类聪明
2024-12-25 18:12:29
开源AI新王被指造假,不要迷信大模型的榜单了
2024-09-11 20:33:28
OpenAI o3 模型基准测试成绩遭质疑,实测分数远不及宣称
2025-04-21 08:32:30
LLM总是把简单任务复杂化,Karpathy无语:有些任务无需那么多思考
2025-08-12 11:21:24
UL Solutions 推出 AI 文本生成基准测试,支持英伟达、AMD、英特尔三家显卡
2024-12-11 17:33:56
AI“推理”模型兴起,基准测试成本飙升
2025-04-13 10:34:23
中国信通院牵头的大模型基准测试ITU国际标准正式发布
2025-04-11 14:56:48
GPT-4o不敌Qwen,无一模型及格!UC伯克利港大等提出多模态新基准
2025-05-16 13:37:28
谷歌发布 FACTS Grounding 基准:Gemini、GPT-4o、Claude 当评委,成 AI 大语言模型“幻觉照妖镜”
2024-12-18 14:32:52
多项力压 Grok 4、OpenAI o3,谷歌推出 Gemini 2.5 Deep Think 模型
2025-08-01 23:08:15
“人类终极考试”基准测试发布:顶级 AI 系统表现惨淡,回答准确率均未超 10%
2025-01-24 16:45:09
Geekbench AI 性能跑分工具 1.0 发布,支持 PC 手机全平台
2024-08-16 10:43:57
基准测试揭秘大模型“字数危机”:26个模型长文本生成普遍拉胯,最大输出长度过度宣传
2025-05-29 15:34:10
526 文章
250364 浏览
24小时热文
更多
-
2025-10-25 18:38:20 -
2025-10-25 18:37:15 -
2025-10-25 16:32:54