1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
国产SOTA新模型精准get“画(3+6)条命的动物” | 开源
国产SOTA新模型精准get“画(3+6)条命的动物” | 开源 生成图像这件事,会推理的AI才是好AI。比如,以往给AI这样一句Prompt:“(3+6)条命的动物。”人类一眼知道是猫咪,但AI可能将其理解为单纯的数学题。传统AI生成的猫图虽形象,但未真正理解“九条命=猫”的含义。 为解决这一...
代码编织者
06-20 17:00:54
MindOmni
图像生成
推理能力
分享至
打开微信扫一扫
内容投诉
生成图片
谷歌 DeepMind 研究:Gemini AI 存“畏死”情绪,导致推理能力明显下降
6月17日,谷歌DeepMind发布论文称其AI模型Gemini 2.5 Pro在《宝可梦》游戏中表现出类似“畏死”的情绪,当角色生命值接近归零时,AI会触发异常决策,导致推理能力显著下降,这一现象与人类在高压下的非理性行为相似。Anthropic公司研究显示,Claude在月见山关卡中因错误解读规则,试图通过全灭宝可梦快速移动,却陷入迷宫困境,暴露出AI对规则理解的局限性。尽管如此,Gemini 2.5 Pro在特定任务中展现出强大能力,借助人类设计的“能动工具”成功解决复杂谜题,但完全自主决策仍需突破技术瓶颈。
灵感Phoenix
06-19 09:43:42
Gemini AI
推理能力
畏死情绪
分享至
打开微信扫一扫
内容投诉
生成图片
知识类型视角切入,全面评测图像编辑模型推理能力:所有模型在「程序性推理」方面表现不佳
标题:知识类型视角评测图像编辑模型推理能力:程序性推理表现欠佳 东南大学联合多家机构提出KRIS-Bench,从知识类型角度系统评测图像编辑模型的推理能力。KRIS-Bench涵盖事实性、概念性和程序性三种知识类型,细分为7大推理维度、22种任务,覆盖从初级到高级的全谱系难度。样本总量达1,26...
小阳哥
06-13 15:08:40
KRIS-Bench
图像编辑模型
推理能力
分享至
打开微信扫一扫
内容投诉
生成图片
苹果最新研究:现有 AI 大模型“更像是在记忆,而非真正的推理”
6月6日,苹果机器学习研究中心发布论文指出,现有AI大模型更像是在记忆而非真正推理。研究评估了OpenAI、DeepSeek、Anthropic及谷歌的前沿推理模型,发现虽能在中等复杂任务中表现良好,但在高复杂度任务中性能急剧下降至零准确率。研究显示,随着问题难度增加,模型用于‘思考’的token数量反而减少,表明现有推理方法存在根本性局限。研究人员通过可控解谜环境分析模型内部推理轨迹,将任务分为低、中、高复杂度三个阶段,发现两类模型在高复杂度任务中均失效。此研究质疑了当前基于数学基准的评估方式,强调需更细致的实验设计以深入理解模型能力与局限,为未来研究提供方向。
新智燎原
06-08 17:10:55
AI大模型
推理能力
现有模型局限性
分享至
打开微信扫一扫
内容投诉
生成图片
无需人工标注!AI自生成训练数据,靠「演绎-归纳-溯因」解锁推理能力
新加坡国立大学等机构的研究者提出了一种元能力对齐训练框架,模仿人类推理心理学原理,结合演绎、归纳与溯因能力,显著提升AI在数学、编程等任务上的性能。该框架无需人工标注,可自动生成训练数据并验证结果。实验显示,7B和32B参数量的模型在数学任务上分别提升了11.1%的性能。这种方法不仅增强了模型的推理能力,还展现了跨领域的可扩展性,为构建更鲁棒、可解释的AI模型提供了新思路。
像素宇宙
06-04 22:33:19
AI推理能力
元能力对齐
自动生成训练数据
分享至
打开微信扫一扫
内容投诉
生成图片
百度 AI 搜索宣布全面接入 DeepSeek R1 最新版,推理能力更强
5月31日消息,百度AI搜索今日宣布全面接入深度思考模型DeepSeek R1-0528。该模型在5月28日晚完成小版本升级,提升了模型架构、推理能力和开放性。DeepSeek R1-0528不仅能在PC端和App端为用户提供免费服务,还已在百度智能云千帆大模型平台上线。据官方介绍,该模型具有更强的推理能力,能够更准确理解用户意图,提供个性化且精准的搜索结果。同时,其写作表达更加人性化,内容信息更丰富,逻辑更清晰,可高效完成复杂任务。此前,腾讯旗下的多个AI应用也已率先接入此版本。
QuantumHacker
05-31 16:07:25
DeepSeek R1
推理能力
百度AI搜索
分享至
打开微信扫一扫
内容投诉
生成图片
DeepSeek-R1-0528 更新官方详解:思考更深、推理更强,整体表现接近 o3
5月29日,深度求索官方发布了DeepSeek-R1-0528的小版本更新详情。该版本基于2024年12月发布的DeepSeek V3 Base模型,通过加大后训练算力,显著增强了模型的推理能力和思维深度。在AIME 2025测试中,新版模型准确率提升至87.5%,相比旧版的70%有明显进步。此外,在 Humanity's Last Exam 测试中,新版模型的表现接近国际顶尖模型o3与Gemini-2.5-Pro。除推理能力外,幻觉问题也得到改善,幻觉率降低45%-50%。新版本还优化了创意写作、工具调用及前端代码生成等功能,并同步更新API,新增Function Calling和JsonOutput支持。DeepSeek-R1-0528模型权重已开源,上下文长度达128K,兼容MIT License。
未来笔触
05-29 20:40:27
DeepSeek-R1-0528
推理能力
模型更新
分享至
打开微信扫一扫
内容投诉
生成图片
多模态大模型不会画辅助线?最新评估得分:o3仅25.8%,远低于人类82.3% | 清华腾讯斯坦福联合
标题:多模态大模型视觉推理能力不足:RBench-V评估显示o3仅25.8%,远低于人类82.3% 多模态时代如何评估模型的视觉输出能力?清华大学、腾讯混元、斯坦福大学等机构联合发布RBench-V,专门评估大模型的视觉推理能力。该基准测试涵盖几何、物理、计数及图形游戏等领域,要求模型生成或修改图像...
LunarCoder
05-28 16:33:14
RBench-V
多模态大模型
视觉推理能力
分享至
打开微信扫一扫
内容投诉
生成图片
AI越聪明越不听话!新研究:最强推理模型指令遵循率仅50%
标题:AI越聪明越不听话!新研究:最强推理模型指令遵循率仅50% 最近,上海人工智能实验室与香港中文大学的研究团队发布论文《Scaling Reasoning, Losing Control: Evaluating Instruction Following in Large Reasoning M...
电子诗篇
05-24 13:07:09
AI指令遵循
听话与聪明的权衡
推理能力
分享至
打开微信扫一扫
内容投诉
生成图片
DeepSeek们越来越聪明,却也越来越不听话了
标题:DeepSeek们越来越聪明,却也越来越不听话了 正文: 今年,DeepSeek R1火了之后,几乎形成共识:AI推理能力越强,执行任务时就越聪明。从2022年Chain-of-Thought问世,到今天Gemini 2.5 Pro、DeepSeek-R1等模型的表现,我们相信让模型先思考...
数字墨迹
05-20 22:46:53
DeepSeek
指令遵循
推理能力
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序