1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
AI版三个臭皮匠!ChatGPT/Gemini/DeepSeek合体拿下AGI测试最高分
AI版三个臭皮匠!ChatGPT/Gemini/DeepSeek合体拿下AGI测试最高分 ChatGPT的对话流畅性、Gemini的多模态能力、DeepSeek的长上下文分析……这些模型能否强强联合,共同解决问题?由Transformer作者之一Llion Jones创立的Sakana AI提出...
AI创想团
07-08 17:49:27
AB-MCTS
ARC-AGI
ChatGPT
分享至
打开微信扫一扫
内容投诉
生成图片
中杯o3成OpenAI“性价比之王”?ARC-AGI测试结果出炉:得分翻倍、成本仅1/20
近日,OpenAI的中杯o3模型在ARC-AGI推理测试中表现亮眼,得分达57%,成本仅为1.5美元/任务,相比第二名翻倍且成本仅为其1/20,成为当前OpenAI模型中的‘性价比之王’。该测试由ARC Prize官方组织,评估模型的推理能力。结果显示,o3在ARC-AGI-1测试中表现优异,但在升级版ARC-AGI-2中准确率未超3%。值得注意的是,此次的o3虽沿用旧名,但经过微调更适合聊天与产品应用,而非专为测试设计。相比去年12月发布的o3-preview,新版本在成本控制上有显著提升,但准确率有所下降。此外,高级推理设置下的o3(high)因成本高昂且效率较低,未能全面完成测试。ARC官方指出,早期响应的准确率更高,高级推理未必高效,且各版本间每秒token数差异不大。DeepSeek-R1在相同测试中得分仅为15.8%,逊色于o3。
电子诗篇
04-23 11:51:39
ARC-AGI
OpenAI
性价比
分享至
打开微信扫一扫
内容投诉
生成图片
全新 ARC-AGI-2 测试登场:AI 模型得分惨淡,被人类碾压
3月25日,Arc Prize基金会推出全新AI测试ARC-AGI-2,旨在更精准评估AI通用智能。目前多数AI模型在此测试中表现低迷,如OpenAI的o1-pro和DeepSeek的R1得分仅1%-1.3%,GPT-4.5等强模型得分约1%。相比之下,人类参与者组成的小组平均答对60%的问题。ARC-AGI-2通过复杂视觉谜题测试AI实时模式识别能力,避免单纯依赖计算资源。与ARC-AGI-1相比,新测试引入效率指标,强调技能获取和应用的经济性。尽管OpenAI的o3在ARC-AGI-1上曾达75.7%,但在ARC-AGI-2中即便投入200美元计算资源,得分仍仅为4%。此次测试引发行业关注,Arc Prize基金会计划2025年竞赛,目标是让AI在测试中达到85%准确率且单任务成本不超0.42美元。
虚拟织梦者
03-25 17:03:51
AI模型
ARC-AGI-2
通用智能
分享至
打开微信扫一扫
内容投诉
生成图片
o3挑战ARC-AGI,遇见大网格就懵圈?英国工程师:ARC-AGI不适合大模型
标题:o3挑战ARC-AGI,英国工程师:大模型在大规模网格面前表现不佳 正文: o3在超难推理任务ARC-AGI上表现出色,但英国工程师Mikel Bober-Irizar的研究发现,其表现可能与题目规模有关。米哥观察到,网格规模越大,大模型如o3、o1、o1 mini及Claude的表现越差。 ...
新智燎原
12-26 16:36:28
ARC-AGI
大模型
网格规模
分享至
打开微信扫一扫
内容投诉
生成图片
OpenAI o3是AGI吗?
标题:OpenAI o3是AGI吗? OpenAI发布了o3系统,在编程、数学、科学等领域表现出色,尤其在ARC-AGI测试中取得重大突破。这是否意味着2025年能看到AGI的曙光?我们编译了ARC-AGI测试标准创始人撰写的o3测评报告。 OpenAI使用ARC-AGI-1数据集训练o3,半私密评...
LunarCoder
12-21 14:58:33
AGI
ARC-AGI
OpenAI o3
分享至
打开微信扫一扫
内容投诉
生成图片
GPT-4o攻破ARC-AGI无法被挑战的神话,71%准确率成新SOTA
新闻摘要:在2024年,GPT-4o突破了通用人工智能基准ARC-AGI的不可能被击败的神话,以71%的准确率在训练集特定子集上成为新SOTA。此前,ARC-AGI被视为难以逾越的挑战,但GPT-4o在公共测试集上的50%准确率和训练集中的表现显示其强大。开发者Ryan Greenblatt利用GPT-4o生成并优化Python程序,取得显著进展,尽管其解决方案因使用闭源模型受限于官方排行榜。未来,专家预测,更大的模型和更多的计算资源有望进一步提升性能,逼近人类85%的基线。这一突破引发了关于LLMs学习能力的讨论,尽管它们在ARC-AGI上尚未展现出深度的即时学习。
数码游侠
06-20 14:13:43
ARC-AGI
GPT-4o
SOTA
分享至
打开微信扫一扫
内容投诉
生成图片
悬赏800万的超难测试集,被GPT-4o实现新SOTA,准确率已达50%
GPT-4o在一周内实现了对悬赏800万美元的ARC-AGI超难测试集的新SOTA,准确率突破50%,之前的最佳成绩为34%。挑战者Ryan Greenblatt利用GPT编写程序,通过细致的少样本提示和策略优化,提升了模型性能。尽管奖金需开源方法获取,Ryan的方法有望推动AI研究。ARC Prize由Mike Knoop和François Chollet发起,目标测试AI的“智力”而非技能,奖金达110万美元,截止日期为11月10日,结果将于12月3日公布。
镜像现实MirageX
06-18 15:31:25
ARC-AGI
GPT-4o
SOTA
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序