综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
2026年2月,谷歌发布Gemini 3 Deep Think重大升级,在Codeforces平台取得3455 Elo分数,排名世界第8,全球仅7人编程水平高于它。新模型在ARC-AGI-2基准测试中达到84.6%,远超此前最佳成绩68.8%;在人类最后考试(HLE)中刷新SOTA至48.4%。研发团队包括清华校友姚顺宇等华人科学家,姚顺宇去年从Anthropic加入谷歌,这是他在谷歌的首秀。Gemini 3 Deep Think还展现跨领域能力,如优化晶体生长工艺、发现半导体材料、辅助数学论文审阅等,推理成本降低82%。目前ARC Prize正开发ARC-AGI-3以应对新挑战。
原文链接
12月5日,谷歌推出面向Gemini Ultra订阅用户(月费249.99美元)的Gemini 3 Deep Think模式。该模式通过调用更多计算资源和全新技术架构,显著提升复杂数学、科学及逻辑问题的推理能力。在行业基准测试中表现卓越,例如Humanity’s Last Exam获41%高分,GPQA Diamond科学测试达93.8%,ARC-AGI-2代码测试取得45.1%成绩。其核心采用先进并行推理技术,可同时探索多种假设路径以求最优解。此前,该模型变体已在IMO和ICPC竞赛中达到金牌标准。此次公测被视作对OpenAI的有力回击,后者虽曾声称具备类似能力但尚未开放产品。业界预测,此举或将加速大模型领域‘推理能力之战’升级。
原文链接
2025年12月5日,谷歌正式上线其最新模型Gemini 3 Deep Think,主打复杂推理能力,可将草图转化为3D场景、生成精细程序等。该模型在多项基准测试中表现优异,例如Humanity’s Last Exam准确率达41%,ARC-AGI-2代码执行准确率高达45.1%,远超GPT-5 Pro和Gemini 3 Pro。然而,其仅向Ultra会员开放,月费249.9美元(约合人民币1800元),引发用户不满,Pro用户尤其批评缺乏试用机会。与此同时,开源模型DeepSeek-V3.2近期同样取得显著成绩,且完全免费,进一步凸显谷歌高价策略的争议性。行业评论认为,开源模型正对闭源产品形成冲击,谷歌此举或面临市场冷遇。
原文链接
加载更多
暂无内容