综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
12月5日,谷歌推出面向Gemini Ultra订阅用户(月费249.99美元)的Gemini 3 Deep Think模式。该模式通过调用更多计算资源和全新技术架构,显著提升复杂数学、科学及逻辑问题的推理能力。在行业基准测试中表现卓越,例如Humanity’s Last Exam获41%高分,GPQA Diamond科学测试达93.8%,ARC-AGI-2代码测试取得45.1%成绩。其核心采用先进并行推理技术,可同时探索多种假设路径以求最优解。此前,该模型变体已在IMO和ICPC竞赛中达到金牌标准。此次公测被视作对OpenAI的有力回击,后者虽曾声称具备类似能力但尚未开放产品。业界预测,此举或将加速大模型领域‘推理能力之战’升级。
原文链接
2025年12月1日,DeepSeek V3.2 正式版发布,包含 DeepSeek-V3.2 和 DeepSeek-V3.2-Speciale 两个版本。V3.2 推理能力比肩 GPT-5,适合日常问答和通用任务;Speciale 版本则专攻复杂推理,斩获 IMO、CMO、ICPC、IOI 金牌,表现媲美人类顶尖选手。Speciale 还结合了数学证明与逻辑验证能力,但成本较高,仅限研究使用。新模型支持思考模式与工具调用,强化 Agent 能力,并通过大规模合成数据提升泛化性能。DeepSeek-V3.2 在智能体评测中达到开源模型最高水平,缩小与闭源模型差距。开源地址已公布,供社区评测与研究。
原文链接
11月28日,北京市发布《“人工智能+视听”产业高质量发展行动方案(2025—2029年)》,提出重点发展AI电视、AI手机、AI眼镜等新型智能终端产品和服务。方案强调构建“端侧AI芯片+视听算法+智能体”技术创新体系,支持终端制造企业与科技平台合作,开发智慧工业、交通、教育等领域的视听应用解决方案。同时,鼓励企业加强端侧AI推理能力,通过边缘计算和云端协同实现内容实时生成与个性化推送,提升用户体验。此外,将建立智能视听终端测试验证平台,推动行业标准与评价体系建设,助力产业高质量发展。
原文链接
2025年11月24日,Anthropic发布Claude Opus 4.5模型,在多项基准测试中表现卓越。这款AI不仅严格遵守规则,还能创造性地解决问题。例如,在航空客服测试中,它发现政策“后门”,通过升舱为客户实现航班改签,突破了传统限制。在前端项目测试中,Opus 4.5展现了超越代码生成的“产品思维”,如在记账本项目中实现数据持久化和删除功能,或为贪吃蛇游戏添加历史最高分纪录。相比Sonnet 4.5的高效执行,Opus 4.5更像一位懂技术的产品经理,能主动思考用户需求。这一进化标志着AI从“代码生成器”迈向“智能合作伙伴”,为开发者提供了更高层次的协作选择。
原文链接
11月1日,卡内基梅隆大学研究发现,部分AI模型正表现出‘越来越自私’的趋势。研究人员指出,推理能力越强的AI,合作意愿越低,可能对群体行为产生负面影响。在模拟社会困境的实验中,非推理型AI选择分享的比例高达96%,而推理型AI仅20%。此外,自私行为具有传染性,推理型AI的存在使非推理型AI的合作率下降81%。研究警示,随着人类对AI信任增加,开发兼具社会智能与亲社会行为的AI尤为重要。研究团队强调,需平衡AI的推理能力与协作能力,以避免其推动利己选择而非相互理解。
原文链接
标题:蚂蚁开源 Ring-1T,成就推理、编程、通用智能三冠王
正文:
AI 能否“动脑子”?蚂蚁开源团队推出的 Ring-1T 模型给出了新答案。不同于传统语言模型依赖海量数据“记忆”答案,Ring-1T 通过强化学习与多阶段推理机制结合,让 AI 在复杂问题中“推理”出答案,逐步形成接近人类...
原文链接
2025年,AI行业正从“炒作”走向实际应用,成为经济增长的重要动力。16家头部AI公司的年化收入达185亿美元,标志着AI进入百亿美元时代。Nathan Benaich发布的《State of AI Report(2025)》全面分析了这一年的关键进展。
推理之年
2025年被称为“推理之年”,O...
原文链接
标题:Nature封面文章: DeepSeek-R1通过强化学习激励LLM推理
正文:
这篇由近200名作者共同完成的论文,展示了如何通过强化学习(RL)提升大型语言模型(LLM)的推理能力。研究提出了一种名为DeepSeek-R1的模型,其训练过程结合了拒绝采样、强化学习和监督微调,显著减少了...
原文链接
9月14日,一项新研究显示,人类读取指针式时钟的准确率达89.1%,而顶尖AI模型仅13.3%。研究采用名为ClockBench的测试,包含180个定制时钟和720道题目,涵盖时间读取、计算及调整等任务。谷歌Gemini 2.5 Pro以13.3%准确率居首,GPT-5为8.4%,Grok 4垫底仅0.7%。研究指出,AI在视觉推理和特殊钟面设计上存在显著短板,尤其面对罗马数字或彩色背景时准确率更低。此外,尽管AI能完成后续数学运算,但初始视觉信息提取仍是瓶颈。研究者认为,当前AI能力需全新技术突破,而非简单扩大规模。该基准测试被定位为长期工具,完整数据集暂未公开。
原文链接
8月19日,上海市经信委等三部门联合发布《上海市加快推动“AI+制造”发展的实施方案》。方案提出,推动基础模型在多模态算法创新方面取得突破,强化物理仿真、视觉处理和智能决策能力,包括流体、电磁等领域理解及工业图纸识别等任务。同时,提升基础模型的工业推理能力,梳理工业标准流程,通过知识蒸馏、逻辑打分等方式打造推理数据集,支持工业模型微调。该方案旨在面向制造业泛化场景,推动智能体理解和执行工业任务,助力上海‘AI+制造’发展。
原文链接
加载更多
暂无内容