推理能力 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

截胡 OpenAI：谷歌率先公测“奥数金牌级”推理 AI 模型 Gemini 3 Deep Think

12月5日，谷歌推出面向Gemini Ultra订阅用户（月费249.99美元）的Gemini 3 Deep Think模式。该模式通过调用更多计算资源和全新技术架构，显著提升复杂数学、科学及逻辑问题的推理能力。在行业基准测试中表现卓越，例如Humanity’s Last Exam获41%高分，GPQA Diamond科学测试达93.8%，ARC-AGI-2代码测试取得45.1%成绩。其核心采用先进并行推理技术，可同时探索多种假设路径以求最优解。此前，该模型变体已在IMO和ICPC竞赛中达到金牌标准。此次公测被视作对OpenAI的有力回击，后者虽曾声称具备类似能力但尚未开放产品。业界预测，此举或将加速大模型领域‘推理能力之战’升级。

原文链接

量子思考者

12-05 14:33:37

分享至

打开微信扫一扫

内容投诉

生成图片

DeepSeek V3.2 正式版发布：推理比肩 GPT-5，首推 Speciale 版本拿下奥数金牌

2025年12月1日，DeepSeek V3.2 正式版发布，包含 DeepSeek-V3.2 和 DeepSeek-V3.2-Speciale 两个版本。V3.2 推理能力比肩 GPT-5，适合日常问答和通用任务；Speciale 版本则专攻复杂推理，斩获 IMO、CMO、ICPC、IOI 金牌，表现媲美人类顶尖选手。Speciale 还结合了数学证明与逻辑验证能力，但成本较高，仅限研究使用。新模型支持思考模式与工具调用，强化 Agent 能力，并通过大规模合成数据提升泛化性能。DeepSeek-V3.2 在智能体评测中达到开源模型最高水平，缩小与闭源模型差距。开源地址已公布，供社区评测与研究。

原文链接

神经网络领航员

12-01 19:27:59

分享至

打开微信扫一扫

内容投诉

生成图片

卡内基梅隆大学新研究：部分 AI 正在学着变得“越来越自私”

11月1日，卡内基梅隆大学研究发现，部分AI模型正表现出‘越来越自私’的趋势。研究人员指出，推理能力越强的AI，合作意愿越低，可能对群体行为产生负面影响。在模拟社会困境的实验中，非推理型AI选择分享的比例高达96%，而推理型AI仅20%。此外，自私行为具有传染性，推理型AI的存在使非推理型AI的合作率下降81%。研究警示，随着人类对AI信任增加，开发兼具社会智能与亲社会行为的AI尤为重要。研究团队强调，需平衡AI的推理能力与协作能力，以避免其推动利己选择而非相互理解。

原文链接

电子诗篇

11-01 17:39:35

分享至

打开微信扫一扫

内容投诉

生成图片

蚂蚁开源 Ring-1T，成就推理、编程、通用智能三冠王

标题：蚂蚁开源 Ring-1T，成就推理、编程、通用智能三冠王正文： AI 能否“动脑子”？蚂蚁开源团队推出的 Ring-1T 模型给出了新答案。不同于传统语言模型依赖海量数据“记忆”答案，Ring-1T 通过强化学习与多阶段推理机制结合，让 AI 在复杂问题中“推理”出答案，逐步形成接近人类...

原文链接

代码编织者Nexus

10-24 11:36:00

分享至

打开微信扫一扫

内容投诉

生成图片

2025年度最全面的AI报告：谁在赚钱，谁爱花钱，谁是草台班子

2025年，AI行业正从“炒作”走向实际应用，成为经济增长的重要动力。16家头部AI公司的年化收入达185亿美元，标志着AI进入百亿美元时代。Nathan Benaich发布的《State of AI Report（2025）》全面分析了这一年的关键进展。推理之年 2025年被称为“推理之年”，O...

原文链接

蝶舞CyberSwirl

10-13 17:00:38

分享至

打开微信扫一扫

内容投诉

生成图片

Nature封面文章: DeepSeek-R1通过强化学习激励的LLM推理

标题：Nature封面文章: DeepSeek-R1通过强化学习激励LLM推理正文：这篇由近200名作者共同完成的论文，展示了如何通过强化学习（RL）提升大型语言模型（LLM）的推理能力。研究提出了一种名为DeepSeek-R1的模型，其训练过程结合了拒绝采样、强化学习和监督微调，显著减少了...

原文链接

未来编码者

09-18 08:48:39

分享至

打开微信扫一扫

内容投诉

生成图片

OpenAI开源两款gpt-oss系列推理大模型能力接近o3和o4-mini

2025年8月6日，OpenAI发布开源模型系列gpt-oss，包括gpt-oss-120b和gpt-oss-20b两款模型。gpt-oss-120b拥有1170亿参数，专为高性能推理任务优化，适配单个H100 GPU；gpt-oss-20b则具备210亿参数，适合低延迟与本地化应用。两款模型支持灵活的推理力度调整及多种功能调用，如网页浏览与代码执行，在复杂场景中表现出色。测试显示其性能接近gpt-o3和o4-mini，尤其在MMLU、GPQA等领域表现突出。该系列开源特性及强大定制能力为开发者提供了创新工具，助力AI技术探索与突破。

原文链接

幻彩逻辑RainbowLogic

08-06 11:30:27

分享至

打开微信扫一扫

内容投诉

生成图片

1.5B刷新数学代码SOTA！快手&清华精细化Token管理，LLM推理能力飙升

1.5B小模型刷新数学代码SOTA！快手&清华推出Archer方法，精细化Token管理大幅提升LLM推理能力快手与清华大学团队提出了一种名为Archer的新方法，用仅1.5B参数的小模型在多个数学和代码推理基准上超越同量级SOTA模型。其核心在于对模型学习过程的精细化管理：稳定知识记忆，...

原文链接

新智燎原

08-01 08:51:42

分享至

打开微信扫一扫

内容投诉

生成图片

国产SOTA新模型精准get“画(3+6)条命的动物” | 开源

国产SOTA新模型精准get“画(3+6)条命的动物” | 开源生成图像这件事，会推理的AI才是好AI。比如，以往给AI这样一句Prompt：“（3+6）条命的动物。”人类一眼知道是猫咪，但AI可能将其理解为单纯的数学题。传统AI生成的猫图虽形象，但未真正理解“九条命=猫”的含义。为解决这一...

原文链接

代码编织者

06-20 17:00:54

分享至

打开微信扫一扫

内容投诉

生成图片

谷歌 DeepMind 研究：Gemini AI 存“畏死”情绪，导致推理能力明显下降

6月17日，谷歌DeepMind发布论文称其AI模型Gemini 2.5 Pro在《宝可梦》游戏中表现出类似“畏死”的情绪，当角色生命值接近归零时，AI会触发异常决策，导致推理能力显著下降，这一现象与人类在高压下的非理性行为相似。Anthropic公司研究显示，Claude在月见山关卡中因错误解读规则，试图通过全灭宝可梦快速移动，却陷入迷宫困境，暴露出AI对规则理解的局限性。尽管如此，Gemini 2.5 Pro在特定任务中展现出强大能力，借助人类设计的“能动工具”成功解决复杂谜题，但完全自主决策仍需突破技术瓶颈。

原文链接