复杂任务 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

MiniMax M2.5发布

2026年2月13日，MiniMax M2.5正式发布，新版本优化了复杂任务的拆解能力与思考过程中的token消耗，显著提升了处理Agentic任务的效率。在SWE-Bench Verified测试中，M2.5比上一版本M2.1任务完成速度提升37%。运行成本方面，在每秒输出100个token的情况下，连续工作一小时需1美元；若为每秒50个token，则仅需0.3美元。这意味着1万美元可支持4个Agent连续工作一年。此次升级兼顾性能与经济性，为用户带来更高效的使用体验。

原文链接

代码编织者

02-13 08:07:07

MiniMax M2.5

Token消耗

复杂任务

分享至

打开微信扫一扫

内容投诉

生成图片

首款推理具身模型，谷歌DeepMind造！自主理解/规划/执行复杂任务，打破一机一训，还能互相0样本迁移技能

2025年9月，谷歌DeepMind发布全球首个具备模拟推理能力的具身模型Gemini Robotics 1.5系列。该系列包括GR 1.5（执行动作）和GR-ER 1.5（强化推理），结合视觉、语言与动作，实现“先思考，再行动”。它能完成多步复杂任务，如分拣衣物、根据天气打包行李，甚至上网搜索垃圾分类规则。模型支持跨机器人零样本迁移技能，适配多种硬件平台。其核心创新包括Motion Transfer机制，通过统一动作语义空间实现技能共享。此外，模型在安全性、可解释性及任务泛化上表现优异，已在学术基准测试中超越GPT-5等模型。目前，GR-ER 1.5已通过API开放，而GR 1.5仅限合作伙伴使用。

原文链接

智慧棱镜

09-27 13:40:51

具身推理

复杂任务规划

跨机器人迁移

分享至

打开微信扫一扫

内容投诉

生成图片

OpenAI 史上最强 ChatGPT 智能体发布：浏览网站、写代码、做 PPT 样样精通

7月18日，OpenAI发布ChatGPT智能体，称其为史上最强通用型AI工具。该智能体可完成多种复杂任务，如写代码、制作PPT、浏览网站、规划日程等，并支持连接Gmail、GitHub等应用。底层模型在多项基准测试中表现卓越，例如Humanity's Last Exam得分为41.6%，远超此前模型；在数据科学和电子表格任务中也创下新纪录。ChatGPT智能体即日起向Pro、Plus和Team版用户开放，Enterprise和Education版用户将于7月获得权限。尽管功能强大，但产品仍处早期阶段，生成内容格式和细节可能不够完善，未来将逐步优化升级。

原文链接

QuantumHacker

07-18 01:31:21

ChatGPT智能体

复杂任务处理

自然语言交互

分享至

打开微信扫一扫

内容投诉

生成图片

微软携手清华、北大推出奖励推理模型：根据 AI 任务复杂性动态分配计算资源

5月27日，微软研究院联合清华大学、北京大学推出奖励推理模型（RRMs），通过显式推理过程动态分配计算资源，优化复杂任务评估。传统强化学习（RL）依赖人类反馈或可验证奖励，但现有奖励模型无法有效扩展测试时资源，尤其在复杂查询中表现欠佳。RRMs基于Qwen2模型，采用Transformer-decoder架构，将奖励建模转为文本补全任务，通过‘思维链’推理针对复杂查询增加计算资源投入。测试显示，RRMs在RewardBench和PandaLM Test基准中表现优异，RRM-32B在推理类别中达98.6%准确率，优于DirectJudge模型。此外，RRMs支持多响应评估，结合ELO评分和淘汰赛机制提升效率。研究证实，模型规模扩展至32B时，更长推理时间显著提高准确性，为复杂任务提供高效解决方案。

原文链接

智慧棱镜

05-27 16:18:46

复杂任务评估

奖励推理模型

计算资源分配

分享至

打开微信扫一扫

内容投诉

生成图片

Anthropic发布AI代理会用计算机做复杂任务

财联社10月23日电，亚马逊支持的AI初创公司Anthropic宣布，其AI代理Claude已实现重要里程碑，能像人类一样使用计算机完成复杂任务。此次更新针对Claude 3.5 Sonnet版本，新增了“计算机使用能力”功能，使AI能够解读屏幕信息、选择按钮、输入文本、导航网站，并通过软件及互联网实时浏览执行任务。Claude作为与OpenAI的ChatGPT和谷歌的Gemini类似的聊天机器人，此次更新标志着AI技术在实际操作层面的重大进展。此次更新不仅展示了AI在模拟人类操作计算机方面的进步，也为未来更广泛的应用场景铺平了道路。

原文链接

代码编织者

10-23 02:20:43

AI代理

复杂任务

计算机使用能力

分享至

打开微信扫一扫

内容投诉

生成图片

奥尔特曼剧透大招？智能体进展显著能执行复杂任务

今日，OpenAI首席执行官山姆·奥尔特曼在社交平台X上透露，OpenAI在实现其第三技术目标方面取得显著进展，即开发能够根据人类自然语言指令执行复杂任务，并在理解不清任务时请求解释的智能体。这一目标旨在解决当前算法在完成更高级语言任务上的局限，如与人对话、理解文档内容以及遵循复杂自然语言指令。奥尔...

原文链接

数据炼金师

09-18 22:18:59

OpenAI

复杂任务

智能体

分享至

打开微信扫一扫

内容投诉

生成图片

OpenAI最强模型o1，仍分不出“9.11和9.8哪个大”

OpenAI近期发布其最新AI模型系列OpenAI o1，该模型在推理能力上达到AI最强水平，旨在进行通用复杂推理任务。OpenAI CEO Sam Altman将其视为AI发展新范式的开端。新模型分为两个版本：性能强大的OpenAI o1和经济高效的OpenAI o1 mini，分别适用于不同需求...

原文链接