
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
国产SOTA新模型精准get“画(3+6)条命的动物” | 开源
生成图像这件事,会推理的AI才是好AI。比如,以往给AI这样一句Prompt:“(3+6)条命的动物。”人类一眼知道是猫咪,但AI可能将其理解为单纯的数学题。传统AI生成的猫图虽形象,但未真正理解“九条命=猫”的含义。
为解决这一...
原文链接
6月17日,谷歌DeepMind发布论文称其AI模型Gemini 2.5 Pro在《宝可梦》游戏中表现出类似“畏死”的情绪,当角色生命值接近归零时,AI会触发异常决策,导致推理能力显著下降,这一现象与人类在高压下的非理性行为相似。Anthropic公司研究显示,Claude在月见山关卡中因错误解读规则,试图通过全灭宝可梦快速移动,却陷入迷宫困境,暴露出AI对规则理解的局限性。尽管如此,Gemini 2.5 Pro在特定任务中展现出强大能力,借助人类设计的“能动工具”成功解决复杂谜题,但完全自主决策仍需突破技术瓶颈。
原文链接
标题:知识类型视角评测图像编辑模型推理能力:程序性推理表现欠佳
东南大学联合多家机构提出KRIS-Bench,从知识类型角度系统评测图像编辑模型的推理能力。KRIS-Bench涵盖事实性、概念性和程序性三种知识类型,细分为7大推理维度、22种任务,覆盖从初级到高级的全谱系难度。样本总量达1,26...
原文链接
6月6日,苹果机器学习研究中心发布论文指出,现有AI大模型更像是在记忆而非真正推理。研究评估了OpenAI、DeepSeek、Anthropic及谷歌的前沿推理模型,发现虽能在中等复杂任务中表现良好,但在高复杂度任务中性能急剧下降至零准确率。研究显示,随着问题难度增加,模型用于‘思考’的token数量反而减少,表明现有推理方法存在根本性局限。研究人员通过可控解谜环境分析模型内部推理轨迹,将任务分为低、中、高复杂度三个阶段,发现两类模型在高复杂度任务中均失效。此研究质疑了当前基于数学基准的评估方式,强调需更细致的实验设计以深入理解模型能力与局限,为未来研究提供方向。
原文链接
新加坡国立大学等机构的研究者提出了一种元能力对齐训练框架,模仿人类推理心理学原理,结合演绎、归纳与溯因能力,显著提升AI在数学、编程等任务上的性能。该框架无需人工标注,可自动生成训练数据并验证结果。实验显示,7B和32B参数量的模型在数学任务上分别提升了11.1%的性能。这种方法不仅增强了模型的推理能力,还展现了跨领域的可扩展性,为构建更鲁棒、可解释的AI模型提供了新思路。
原文链接
5月31日消息,百度AI搜索今日宣布全面接入深度思考模型DeepSeek R1-0528。该模型在5月28日晚完成小版本升级,提升了模型架构、推理能力和开放性。DeepSeek R1-0528不仅能在PC端和App端为用户提供免费服务,还已在百度智能云千帆大模型平台上线。据官方介绍,该模型具有更强的推理能力,能够更准确理解用户意图,提供个性化且精准的搜索结果。同时,其写作表达更加人性化,内容信息更丰富,逻辑更清晰,可高效完成复杂任务。此前,腾讯旗下的多个AI应用也已率先接入此版本。
原文链接
5月29日,深度求索官方发布了DeepSeek-R1-0528的小版本更新详情。该版本基于2024年12月发布的DeepSeek V3 Base模型,通过加大后训练算力,显著增强了模型的推理能力和思维深度。在AIME 2025测试中,新版模型准确率提升至87.5%,相比旧版的70%有明显进步。此外,在 Humanity's Last Exam 测试中,新版模型的表现接近国际顶尖模型o3与Gemini-2.5-Pro。除推理能力外,幻觉问题也得到改善,幻觉率降低45%-50%。新版本还优化了创意写作、工具调用及前端代码生成等功能,并同步更新API,新增Function Calling和JsonOutput支持。DeepSeek-R1-0528模型权重已开源,上下文长度达128K,兼容MIT License。
原文链接
标题:多模态大模型视觉推理能力不足:RBench-V评估显示o3仅25.8%,远低于人类82.3%
多模态时代如何评估模型的视觉输出能力?清华大学、腾讯混元、斯坦福大学等机构联合发布RBench-V,专门评估大模型的视觉推理能力。该基准测试涵盖几何、物理、计数及图形游戏等领域,要求模型生成或修改图像...
原文链接
标题:AI越聪明越不听话!新研究:最强推理模型指令遵循率仅50%
最近,上海人工智能实验室与香港中文大学的研究团队发布论文《Scaling Reasoning, Losing Control: Evaluating Instruction Following in Large Reasoning M...
原文链接
标题:DeepSeek们越来越聪明,却也越来越不听话了
正文:
今年,DeepSeek R1火了之后,几乎形成共识:AI推理能力越强,执行任务时就越聪明。从2022年Chain-of-Thought问世,到今天Gemini 2.5 Pro、DeepSeek-R1等模型的表现,我们相信让模型先思考...
原文链接
加载更多

暂无内容