1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

科技媒体The Decoder于9月10日发布报道,指出对比平台Artificial Analysis数据显示,Reflection 70B AI模型在基准测试中的表现不如Meta的LLaMA-3.1-70B。Reflection公司CEO马特·舒默解释,上传至Hugging Face的模型权重存在问题,导致测试结果不佳。尽管内部托管的模型表现出色,但公开API的测试结果仍低于LLaMA-3.1-70B。舒默已向部分用户提供了访问内部模型的权限,以重做测试。此外,舒默透露其公司OthersideAI计划发布基于LLaMA 3.1 450B的更大、更强大的模型,声称这将是历史上最优秀的语言模型。相关阅读链接提及该模型在技术上的突破,包括纠正自身幻觉的能力和数学测试得分99.2%。

原文链接
本文链接:https://kx.umi6.com/article/6159.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
开源AI新王被指造假,不要迷信大模型的榜单了
2024-09-11 20:33:28
AI“推理”模型兴起,基准测试成本飙升
2025-04-13 10:34:23
外国高三学生创建 AI 评测网站:让模型在《我的世界》里“一决高下”
2025-03-22 16:25:54
LLM总是把简单任务复杂化,Karpathy无语:有些任务无需那么多思考
2025-08-12 11:21:24
Reflection 70B AI 模型“塌房”:第三方基准测试结果不佳,不如 LLaMA-3.1-70B
2024-09-11 12:24:53
UL Solutions 推出 AI 文本生成基准测试,支持英伟达、AMD、英特尔三家显卡
2024-12-11 17:33:56
仅仅一天,Gemini就夺回了GPT-4o拿走的头名
2024-11-22 17:08:30
多项力压 Grok 4、OpenAI o3,谷歌推出 Gemini 2.5 Deep Think 模型
2025-08-01 23:08:15
GPT-4o不敌Qwen,无一模型及格!UC伯克利港大等提出多模态新基准
2025-05-16 13:37:28
基准测试揭秘大模型“字数危机”:26个模型长文本生成普遍拉胯,最大输出长度过度宣传
2025-05-29 15:34:10
中国信通院牵头的大模型基准测试ITU国际标准正式发布
2025-04-11 14:56:48
OpenAI o3被曝智商高达157,比肩爱因斯坦,但却没法证明比人类聪明
2024-12-25 18:12:29
Geekbench AI 性能跑分工具 1.0 发布,支持 PC 手机全平台
2024-08-16 10:43:57
24小时热文
更多
扫一扫体验小程序