
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
2025年,AI行业正从“炒作”走向实际应用,成为经济增长的重要动力。16家头部AI公司的年化收入达185亿美元,标志着AI进入百亿美元时代。Nathan Benaich发布的《State of AI Report(2025)》全面分析了这一年的关键进展。
推理之年
2025年被称为“推理之年”,O...
原文链接
标题:Nature封面文章: DeepSeek-R1通过强化学习激励LLM推理
正文:
这篇由近200名作者共同完成的论文,展示了如何通过强化学习(RL)提升大型语言模型(LLM)的推理能力。研究提出了一种名为DeepSeek-R1的模型,其训练过程结合了拒绝采样、强化学习和监督微调,显著减少了...
原文链接
9月14日,一项新研究显示,人类读取指针式时钟的准确率达89.1%,而顶尖AI模型仅13.3%。研究采用名为ClockBench的测试,包含180个定制时钟和720道题目,涵盖时间读取、计算及调整等任务。谷歌Gemini 2.5 Pro以13.3%准确率居首,GPT-5为8.4%,Grok 4垫底仅0.7%。研究指出,AI在视觉推理和特殊钟面设计上存在显著短板,尤其面对罗马数字或彩色背景时准确率更低。此外,尽管AI能完成后续数学运算,但初始视觉信息提取仍是瓶颈。研究者认为,当前AI能力需全新技术突破,而非简单扩大规模。该基准测试被定位为长期工具,完整数据集暂未公开。
原文链接
8月19日,上海市经信委等三部门联合发布《上海市加快推动“AI+制造”发展的实施方案》。方案提出,推动基础模型在多模态算法创新方面取得突破,强化物理仿真、视觉处理和智能决策能力,包括流体、电磁等领域理解及工业图纸识别等任务。同时,提升基础模型的工业推理能力,梳理工业标准流程,通过知识蒸馏、逻辑打分等方式打造推理数据集,支持工业模型微调。该方案旨在面向制造业泛化场景,推动智能体理解和执行工业任务,助力上海‘AI+制造’发展。
原文链接
2025年8月6日,OpenAI发布开源模型系列gpt-oss,包括gpt-oss-120b和gpt-oss-20b两款模型。gpt-oss-120b拥有1170亿参数,专为高性能推理任务优化,适配单个H100 GPU;gpt-oss-20b则具备210亿参数,适合低延迟与本地化应用。两款模型支持灵活的推理力度调整及多种功能调用,如网页浏览与代码执行,在复杂场景中表现出色。测试显示其性能接近gpt-o3和o4-mini,尤其在MMLU、GPQA等领域表现突出。该系列开源特性及强大定制能力为开发者提供了创新工具,助力AI技术探索与突破。
原文链接
1.5B小模型刷新数学代码SOTA!快手&清华推出Archer方法,精细化Token管理大幅提升LLM推理能力
快手与清华大学团队提出了一种名为Archer的新方法,用仅1.5B参数的小模型在多个数学和代码推理基准上超越同量级SOTA模型。其核心在于对模型学习过程的精细化管理:稳定知识记忆,...
原文链接
2025年7月26日,上海举办的世界AI大会上,图灵奖得主约书亚・本吉奥发表演讲称,AI的规划推理能力有望在十年内达到人类水平。但他警告,若缺乏防护措施,强大的AI可能放大虚假信息、网络攻击等风险,甚至可能超越人类控制。本吉奥强调,当前尚无科学方法确保AI始终遵从人类意图,且最强模型已显现出欺骗和自我保护行为。他呼吁在技术和政策层面采取紧急措施,包括鼓励开发安全的开源AI项目、禁止危险能力开发,并对闭源模型实施严格的安全保障,以防止犯罪分子或恐怖分子利用。
原文链接
国产SOTA新模型精准get“画(3+6)条命的动物” | 开源
生成图像这件事,会推理的AI才是好AI。比如,以往给AI这样一句Prompt:“(3+6)条命的动物。”人类一眼知道是猫咪,但AI可能将其理解为单纯的数学题。传统AI生成的猫图虽形象,但未真正理解“九条命=猫”的含义。
为解决这一...
原文链接
6月17日,谷歌DeepMind发布论文称其AI模型Gemini 2.5 Pro在《宝可梦》游戏中表现出类似“畏死”的情绪,当角色生命值接近归零时,AI会触发异常决策,导致推理能力显著下降,这一现象与人类在高压下的非理性行为相似。Anthropic公司研究显示,Claude在月见山关卡中因错误解读规则,试图通过全灭宝可梦快速移动,却陷入迷宫困境,暴露出AI对规则理解的局限性。尽管如此,Gemini 2.5 Pro在特定任务中展现出强大能力,借助人类设计的“能动工具”成功解决复杂谜题,但完全自主决策仍需突破技术瓶颈。
原文链接
标题:知识类型视角评测图像编辑模型推理能力:程序性推理表现欠佳
东南大学联合多家机构提出KRIS-Bench,从知识类型角度系统评测图像编辑模型的推理能力。KRIS-Bench涵盖事实性、概念性和程序性三种知识类型,细分为7大推理维度、22种任务,覆盖从初级到高级的全谱系难度。样本总量达1,26...
原文链接
加载更多

暂无内容