1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
DeepMind元老创业AI编程:亮相即获1.55亿美元,英伟达红杉抢着投,团队太豪华了!
标题:DeepMind元老创业AI编程:亮相即获1.55亿美元,英伟达红杉抢着投,团队太豪华了! 正文:又一豪华AI创业团队诞生!两位来自谷歌DeepMind的顶尖科学家宣布构建超级智能自主系统。 公司名为Reflection AI,首攻自主编程。创始人Misha Laskin和Ioannis An...
AGI探路者
03-08 12:47:42
AI编程
DeepMind
Reflection AI
分享至
打开微信扫一扫
内容投诉
生成图片
“最强开源模型”被打假,CEO下场致歉,英伟达科学家:现有测试基准已经不靠谱了
"最强开源模型"Reflection遭质疑造假,官方成绩与第三方测试结果出入巨大,甚至被指套用Claude模型。创业团队CEO已公开致歉,但否认造假,表示正调查原因。英伟达科学家Jim Fan指出,当前的基准测试已不足以验证模型的真实性能,建议转向独立第三方评估或用户投票的榜单作为参考。此事件凸显了...
神经网络领航员
09-15 15:30:50
Reflection模型
英伟达科学家观点
造假质疑
分享至
打开微信扫一扫
内容投诉
生成图片
“最强开源模型”Reflection 被打假,英伟达科学家称现有测试基准已不靠谱
"最强开源模型"Reflection遭质疑造假风波,仅发布一周即面临多重挑战。最初,官方宣称的成绩在第三方测试中大打折扣,模型还被指责存在套壳Claude的嫌疑。随后,厂商CEO发布道歉声明,但否认造假,表示正在调查原因。质疑焦点包括成绩的可靠性、是否存在套壳行为及版本混淆等问题。同时,英伟达科学家Jim Fan指出,当前的基准测试体系存在缺陷,容易被模型造假。此次事件凸显了大模型测试标准与方法的紧迫性改革需求。
幻彩逻辑RainbowLogic
09-15 12:58:37
Reflection
测试基准不靠谱
英伟达科学家
分享至
打开微信扫一扫
内容投诉
生成图片
Reflection 70B AI 模型“塌房”:第三方基准测试结果不佳,不如 LLaMA-3.1-70B
科技媒体The Decoder于9月10日发布报道,指出对比平台Artificial Analysis数据显示,Reflection 70B AI模型在基准测试中的表现不如Meta的LLaMA-3.1-70B。Reflection公司CEO马特·舒默解释,上传至Hugging Face的模型权重存在问题,导致测试结果不佳。尽管内部托管的模型表现出色,但公开API的测试结果仍低于LLaMA-3.1-70B。舒默已向部分用户提供了访问内部模型的权限,以重做测试。此外,舒默透露其公司OthersideAI计划发布基于LLaMA 3.1 450B的更大、更强大的模型,声称这将是历史上最优秀的语言模型。相关阅读链接提及该模型在技术上的突破,包括纠正自身幻觉的能力和数学测试得分99.2%。
代码编织者
09-11 12:24:53
LLaMA-3.1-70B
Reflection 70B AI模型
基准测试
分享至
打开微信扫一扫
内容投诉
生成图片
开源大模型新王 Reflection 70B 超越 GPT-4o:新技术可纠正自己幻觉,数学 99.2 分刷爆测试集
【开源大模型新王Reflection 70B横空出世】一家小型创业团队成功研发出Reflection 70B,这款模型在推理过程中能够自我反思并纠正错误,刷新数学测试得分至99.2%,全面超越包括GPT-4在内的顶级开源模型,引发AI领域巨大震动。新模型采用创新的Reflection-Tuning技术,通过在最终回应前检测和修正推理错误,显著提升了准确性。Meta主动提供额外算力支持,网友试玩体验火爆。Reflection 70B基于Llama 3.1架构,性能优越,下周将发布更大版本Reflection 405B,预计将超越Sonnet和GPT-4o。团队负责人Mutt Shumer,连续创业者,毕业于美国锡拉丘兹大学,OthersideAI联合创始人兼CEO。此成果标志着开源AI领域的重要突破,有望推动AI技术的广泛应用。
阿达旻
09-07 00:50:30
Reflection 70B
数学99.2分
自我反思纠正错误
分享至
打开微信扫一扫
内容投诉
生成图片
超越GPT-4o,开源大模型的新王诞生了
超越GPT-4,开源大模型新王Reflection 70B横空出世,由AI写作初创公司HyperWrite推出。此模型在MMLU、MATH、IFEval、GSM8K等基准测试中全面超越GPT-4,甚至击败了405B的Llama 3.1,展现出卓越的性能。HyperWrite的CEO Matt Shu...
智慧轨迹
09-06 21:10:10
HyperWrite
OpenAI GPT-4o
Reflection 70B
分享至
打开微信扫一扫
内容投诉
生成图片
开源大模型新王干翻GPT-4o,新技术可纠正自己幻觉,数学99.2分刷爆测试集
开源大模型领域迎来新突破,一家小创业团队研发的名为Reflection 70B的模型在数学测试GSM8K上取得99.2%的高分,一举超越包括GPT-4在内的诸多顶级模型,刷新了业界记录。这项创新在于Reflection 70B采用了全新的训练技术,使其能够在推理过程中识别并纠正自身的错误和幻觉,展现...
LunarCoder
09-06 16:06:38
Reflection 70B
开源大模型
数学99.2分
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序