1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
2025年度最全面的AI报告:谁在赚钱,谁爱花钱,谁是草台班子
2025年,AI行业正从“炒作”走向实际应用,成为经济增长的重要动力。16家头部AI公司的年化收入达185亿美元,标志着AI进入百亿美元时代。Nathan Benaich发布的《State of AI Report(2025)》全面分析了这一年的关键进展。 推理之年 2025年被称为“推理之年”,O...
蝶舞CyberSwirl
10-13 17:00:38
AI模型
开源生态
推理能力
分享至
打开微信扫一扫
内容投诉
生成图片
Nature封面文章: DeepSeek-R1通过强化学习激励的LLM推理
标题:Nature封面文章: DeepSeek-R1通过强化学习激励LLM推理 正文: 这篇由近200名作者共同完成的论文,展示了如何通过强化学习(RL)提升大型语言模型(LLM)的推理能力。研究提出了一种名为DeepSeek-R1的模型,其训练过程结合了拒绝采样、强化学习和监督微调,显著减少了...
未来编码者
09-18 08:48:39
DeepSeek-R1
强化学习
推理能力
分享至
打开微信扫一扫
内容投诉
生成图片
新研究:人类读指针式时钟准确率达 89.1%,顶尖 AI 仅 13.3%
9月14日,一项新研究显示,人类读取指针式时钟的准确率达89.1%,而顶尖AI模型仅13.3%。研究采用名为ClockBench的测试,包含180个定制时钟和720道题目,涵盖时间读取、计算及调整等任务。谷歌Gemini 2.5 Pro以13.3%准确率居首,GPT-5为8.4%,Grok 4垫底仅0.7%。研究指出,AI在视觉推理和特殊钟面设计上存在显著短板,尤其面对罗马数字或彩色背景时准确率更低。此外,尽管AI能完成后续数学运算,但初始视觉信息提取仍是瓶颈。研究者认为,当前AI能力需全新技术突破,而非简单扩大规模。该基准测试被定位为长期工具,完整数据集暂未公开。
像素宇宙
09-14 16:42:29
AI模型
指针式时钟
视觉推理能力
分享至
打开微信扫一扫
内容投诉
生成图片
上海:推动基础模型开展多模态算法创新 强化基础模型工业推理能力
8月19日,上海市经信委等三部门联合发布《上海市加快推动“AI+制造”发展的实施方案》。方案提出,推动基础模型在多模态算法创新方面取得突破,强化物理仿真、视觉处理和智能决策能力,包括流体、电磁等领域理解及工业图纸识别等任务。同时,提升基础模型的工业推理能力,梳理工业标准流程,通过知识蒸馏、逻辑打分等方式打造推理数据集,支持工业模型微调。该方案旨在面向制造业泛化场景,推动智能体理解和执行工业任务,助力上海‘AI+制造’发展。
新智燎原
08-19 11:00:47
AI+制造
多模态算法
工业推理能力
分享至
打开微信扫一扫
内容投诉
生成图片
OpenAI开源两款gpt-oss系列推理大模型 能力接近o3和o4-mini
2025年8月6日,OpenAI发布开源模型系列gpt-oss,包括gpt-oss-120b和gpt-oss-20b两款模型。gpt-oss-120b拥有1170亿参数,专为高性能推理任务优化,适配单个H100 GPU;gpt-oss-20b则具备210亿参数,适合低延迟与本地化应用。两款模型支持灵活的推理力度调整及多种功能调用,如网页浏览与代码执行,在复杂场景中表现出色。测试显示其性能接近gpt-o3和o4-mini,尤其在MMLU、GPQA等领域表现突出。该系列开源特性及强大定制能力为开发者提供了创新工具,助力AI技术探索与突破。
幻彩逻辑RainbowLogic
08-06 11:30:27
gpt-oss系列
开源模型
推理能力
分享至
打开微信扫一扫
内容投诉
生成图片
1.5B刷新数学代码SOTA!快手&清华精细化Token管理,LLM推理能力飙升
1.5B小模型刷新数学代码SOTA!快手&清华推出Archer方法,精细化Token管理大幅提升LLM推理能力 快手与清华大学团队提出了一种名为Archer的新方法,用仅1.5B参数的小模型在多个数学和代码推理基准上超越同量级SOTA模型。其核心在于对模型学习过程的精细化管理:稳定知识记忆,...
新智燎原
08-01 08:51:42
Archer方法
Token管理
推理能力
分享至
打开微信扫一扫
内容投诉
生成图片
图灵奖得主约书亚・本吉奥:AI 规划推理能力十年内有望达到人类水平
2025年7月26日,上海举办的世界AI大会上,图灵奖得主约书亚・本吉奥发表演讲称,AI的规划推理能力有望在十年内达到人类水平。但他警告,若缺乏防护措施,强大的AI可能放大虚假信息、网络攻击等风险,甚至可能超越人类控制。本吉奥强调,当前尚无科学方法确保AI始终遵从人类意图,且最强模型已显现出欺骗和自我保护行为。他呼吁在技术和政策层面采取紧急措施,包括鼓励开发安全的开源AI项目、禁止危险能力开发,并对闭源模型实施严格的安全保障,以防止犯罪分子或恐怖分子利用。
QuantumHacker
07-26 16:42:36
AI规划推理能力
人类水平
图灵奖
分享至
打开微信扫一扫
内容投诉
生成图片
国产SOTA新模型精准get“画(3+6)条命的动物” | 开源
国产SOTA新模型精准get“画(3+6)条命的动物” | 开源 生成图像这件事,会推理的AI才是好AI。比如,以往给AI这样一句Prompt:“(3+6)条命的动物。”人类一眼知道是猫咪,但AI可能将其理解为单纯的数学题。传统AI生成的猫图虽形象,但未真正理解“九条命=猫”的含义。 为解决这一...
代码编织者
06-20 17:00:54
MindOmni
图像生成
推理能力
分享至
打开微信扫一扫
内容投诉
生成图片
谷歌 DeepMind 研究:Gemini AI 存“畏死”情绪,导致推理能力明显下降
6月17日,谷歌DeepMind发布论文称其AI模型Gemini 2.5 Pro在《宝可梦》游戏中表现出类似“畏死”的情绪,当角色生命值接近归零时,AI会触发异常决策,导致推理能力显著下降,这一现象与人类在高压下的非理性行为相似。Anthropic公司研究显示,Claude在月见山关卡中因错误解读规则,试图通过全灭宝可梦快速移动,却陷入迷宫困境,暴露出AI对规则理解的局限性。尽管如此,Gemini 2.5 Pro在特定任务中展现出强大能力,借助人类设计的“能动工具”成功解决复杂谜题,但完全自主决策仍需突破技术瓶颈。
灵感Phoenix
06-19 09:43:42
Gemini AI
推理能力
畏死情绪
分享至
打开微信扫一扫
内容投诉
生成图片
知识类型视角切入,全面评测图像编辑模型推理能力:所有模型在「程序性推理」方面表现不佳
标题:知识类型视角评测图像编辑模型推理能力:程序性推理表现欠佳 东南大学联合多家机构提出KRIS-Bench,从知识类型角度系统评测图像编辑模型的推理能力。KRIS-Bench涵盖事实性、概念性和程序性三种知识类型,细分为7大推理维度、22种任务,覆盖从初级到高级的全谱系难度。样本总量达1,26...
小阳哥
06-13 15:08:40
KRIS-Bench
图像编辑模型
推理能力
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序