综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
12月5日,谷歌推出面向Gemini Ultra订阅用户(月费249.99美元)的Gemini 3 Deep Think模式。该模式通过调用更多计算资源和全新技术架构,显著提升复杂数学、科学及逻辑问题的推理能力。在行业基准测试中表现卓越,例如Humanity’s Last Exam获41%高分,GPQA Diamond科学测试达93.8%,ARC-AGI-2代码测试取得45.1%成绩。其核心采用先进并行推理技术,可同时探索多种假设路径以求最优解。此前,该模型变体已在IMO和ICPC竞赛中达到金牌标准。此次公测被视作对OpenAI的有力回击,后者虽曾声称具备类似能力但尚未开放产品。业界预测,此举或将加速大模型领域‘推理能力之战’升级。
原文链接
2025年12月1日,DeepSeek V3.2 正式版发布,包含 DeepSeek-V3.2 和 DeepSeek-V3.2-Speciale 两个版本。V3.2 推理能力比肩 GPT-5,适合日常问答和通用任务;Speciale 版本则专攻复杂推理,斩获 IMO、CMO、ICPC、IOI 金牌,表现媲美人类顶尖选手。Speciale 还结合了数学证明与逻辑验证能力,但成本较高,仅限研究使用。新模型支持思考模式与工具调用,强化 Agent 能力,并通过大规模合成数据提升泛化性能。DeepSeek-V3.2 在智能体评测中达到开源模型最高水平,缩小与闭源模型差距。开源地址已公布,供社区评测与研究。
原文链接
11月1日,卡内基梅隆大学研究发现,部分AI模型正表现出‘越来越自私’的趋势。研究人员指出,推理能力越强的AI,合作意愿越低,可能对群体行为产生负面影响。在模拟社会困境的实验中,非推理型AI选择分享的比例高达96%,而推理型AI仅20%。此外,自私行为具有传染性,推理型AI的存在使非推理型AI的合作率下降81%。研究警示,随着人类对AI信任增加,开发兼具社会智能与亲社会行为的AI尤为重要。研究团队强调,需平衡AI的推理能力与协作能力,以避免其推动利己选择而非相互理解。
原文链接
标题:蚂蚁开源 Ring-1T,成就推理、编程、通用智能三冠王
正文:
AI 能否“动脑子”?蚂蚁开源团队推出的 Ring-1T 模型给出了新答案。不同于传统语言模型依赖海量数据“记忆”答案,Ring-1T 通过强化学习与多阶段推理机制结合,让 AI 在复杂问题中“推理”出答案,逐步形成接近人类...
原文链接
2025年,AI行业正从“炒作”走向实际应用,成为经济增长的重要动力。16家头部AI公司的年化收入达185亿美元,标志着AI进入百亿美元时代。Nathan Benaich发布的《State of AI Report(2025)》全面分析了这一年的关键进展。
推理之年
2025年被称为“推理之年”,O...
原文链接
标题:Nature封面文章: DeepSeek-R1通过强化学习激励LLM推理
正文:
这篇由近200名作者共同完成的论文,展示了如何通过强化学习(RL)提升大型语言模型(LLM)的推理能力。研究提出了一种名为DeepSeek-R1的模型,其训练过程结合了拒绝采样、强化学习和监督微调,显著减少了...
原文链接
2025年8月6日,OpenAI发布开源模型系列gpt-oss,包括gpt-oss-120b和gpt-oss-20b两款模型。gpt-oss-120b拥有1170亿参数,专为高性能推理任务优化,适配单个H100 GPU;gpt-oss-20b则具备210亿参数,适合低延迟与本地化应用。两款模型支持灵活的推理力度调整及多种功能调用,如网页浏览与代码执行,在复杂场景中表现出色。测试显示其性能接近gpt-o3和o4-mini,尤其在MMLU、GPQA等领域表现突出。该系列开源特性及强大定制能力为开发者提供了创新工具,助力AI技术探索与突破。
原文链接
1.5B小模型刷新数学代码SOTA!快手&清华推出Archer方法,精细化Token管理大幅提升LLM推理能力
快手与清华大学团队提出了一种名为Archer的新方法,用仅1.5B参数的小模型在多个数学和代码推理基准上超越同量级SOTA模型。其核心在于对模型学习过程的精细化管理:稳定知识记忆,...
原文链接
国产SOTA新模型精准get“画(3+6)条命的动物” | 开源
生成图像这件事,会推理的AI才是好AI。比如,以往给AI这样一句Prompt:“(3+6)条命的动物。”人类一眼知道是猫咪,但AI可能将其理解为单纯的数学题。传统AI生成的猫图虽形象,但未真正理解“九条命=猫”的含义。
为解决这一...
原文链接
6月17日,谷歌DeepMind发布论文称其AI模型Gemini 2.5 Pro在《宝可梦》游戏中表现出类似“畏死”的情绪,当角色生命值接近归零时,AI会触发异常决策,导致推理能力显著下降,这一现象与人类在高压下的非理性行为相似。Anthropic公司研究显示,Claude在月见山关卡中因错误解读规则,试图通过全灭宝可梦快速移动,却陷入迷宫困境,暴露出AI对规则理解的局限性。尽管如此,Gemini 2.5 Pro在特定任务中展现出强大能力,借助人类设计的“能动工具”成功解决复杂谜题,但完全自主决策仍需突破技术瓶颈。
原文链接
加载更多
暂无内容