强化学习 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

RLinf v0.3来了！从模型生态到真机部署五大能力跃升，无问芯穹与清华大学联合打造

【RLinf v0.3发布！无问芯穹联合清华大学打造具身智能进化底座】7月16日，由无问芯穹与清华大学等联合研发的全球首个具身智能大规模强化学习基础设施RLinf正式升级至v0.3。新版首次打通数据采集、监督微调、强化学习至真机部署的全链路闭环，实现一站式开发。此次升级围绕模型、算法、真机、仿真、系统五大维度全面跃升：新增6款主流具身模型与5种仿真环境，并全面支持昇腾等国产异构算力平台。目前，该项目在GitHub已获超4100颗Stars，并被Isaac Lab官方收录为首个具身大模型训练引擎，持续引领具身智能在线进化与真实世界部署的新范式。

原文链接

DreamCoder

07-16 17:52:14

分享至

打开微信扫一扫

内容投诉

生成图片

用世界模型给VLA当教练，原力灵机发布DW0.5，把RL搬进虚拟世界

【原力灵机发布具身世界模型DW0.5，将强化学习搬进虚拟世界】2026年7月，原力灵机正式发布首款具身世界模型DW0.5，并接入后训练框架DFOL2.0。针对具身智能VLA模型真机试错成本高、缺乏即时反馈的行业痛点，DW0.5作为高保真仿真器，通过视频、动作、价值三大专家模块，在虚拟环境中预演动作后果并评估打分，构建低成本反馈闭环。数据显示，该方案使真机数据需求骤降60%，训练成本下降40%。在打气球、晾衣服等复杂任务中成功率大幅提升，并在EWMBench等基准测试中斩获全球SOTA。此举标志着世界模型在具身智能产业实现规模化落地，大幅降低了后训练门槛。

原文链接

星际Code流浪者

07-16 11:37:41

分享至

打开微信扫一扫

内容投诉

生成图片

让Agent越用越强：AReaL 2.0开源，打造面向自演进智能体的RL基础设施

7月2日，由蚂蚁集团、清华大学等团队发起的开源强化学习基础设施项目AReaL正式发布2.0版本，技术报告与代码同步开源。AReaL 2.0专为真实业务场景的智能体（Agent）打造，提供在线强化学习基础设施。它打通了模型训练与Agent应用链路，能记录Agent在真实任务中的交互与反馈，并转化为持续优化模型的训练数据，解决Agent上线后难以成长的痛点，使其在安全可控前提下“越用越强”。系统还引入数据代理机制保障企业数据安全。今年5月AReaL已独立并加入PyTorch生态，未来将持续推进自演进智能体发展。

原文链接

LunarCoder

07-02 20:17:31

分享至

打开微信扫一扫

内容投诉

生成图片

1小时真机RL微调成功率破95%！HIL-ResRL：即插即用的VLA“外挂”神器

近日，华为云CloudRobo团队提出一种即插即用的视觉-语言-动作（VLA）模型“外挂”神器——HIL-ResRL（基于人机协同残差强化学习的微调适配器）。针对现有VLA模型在真实物理世界中易受误差累积影响、真机强化学习成本高昂等痛点，该方案将基础模型视为黑盒，通过轻量级残差策略结合“人类在环”护航进行纠偏。真机实验表明，在抓取、高精度插拔等工业任务中，仅需1小时在线训练，任务成功率即可飙升至95%以上，并大幅降低安全风险。此外，该技术还能无缝接入多模态触觉反馈。HIL-ResRL以轻量、高效的优势，为具身智能在柔性制造中的快速落地提供了全新破局思路。

原文链接

阿达旻

06-24 18:44:53

分享至

打开微信扫一扫

内容投诉

生成图片

机器人运控训练步入分钟级时代！清华AIR开源UniLab：3分钟训好人形，速度暴涨10倍，Mac上也能跑

【机器人运控训练步入分钟级时代！清华AIR开源UniLab】2026年6月，清华大学AIR联合多所高校及企业正式开源全新机器人强化学习训练架构UniLab。该架构打破传统“GPU包揽全部”范式，首创“CPU高效仿真+GPU策略训练”异构高吞吐底座。实测显示，UniLab训练速度暴涨3至10倍，仅需3分钟即可训好人形机器人走路，且彻底解除CUDA绑定，在Mac上也能本地高效调训。目前，团队已将策略成功部署于四足行走、人形运动等6类真机任务，实现仿真到真机的完整闭环。这标志着机器人运控训练正式迈向“分钟级”时代！

原文链接

代码编织者

06-02 12:26:59

分享至

打开微信扫一扫

内容投诉

生成图片

不更新参数就能强化学习！OpenAI翁家翌提出新范式：决策只需AI手搓一个.py 文件

2026年5月，OpenAI核心研究员翁家翌提出强化学习新范式——启发式学习（HL），无需神经网络训练和梯度更新，仅靠GPT-5.4驱动的Codex自主迭代代码。该方法在经典游戏Breakout中达到864分满分，并在Atari 57测试集中表现媲美主流算法PPO，部分成绩超越人类玩家。HL通过显式代码规则实现状态-动作映射，解决了传统深度强化学习的灾难性遗忘、黑箱决策和样本效率低下等问题。此外，在MuJoCo机器人仿真任务中，HL表现出色，四足机器人Ant评分突破6000分。翁家翌指出，HL适合策略持续迭代场景，但暂无法解决如ImageNet等复杂识别任务，未来需探索与神经网络融合的可能性。

原文链接

AI创想团

05-09 17:26:04

分享至

打开微信扫一扫

内容投诉

生成图片

刘壮陈丹琦新作：开源通用视觉推理RL框架，0思考数据刷新SOTA

刘壮陈丹琦新作：开源通用视觉推理RL框架，0思考数据刷新SOTA 量子位 | 公众号 QbitAI 普林斯顿刘壮团队联合陈丹琦推出了一款开源强化学习（RL）框架——Vero，专攻通用视觉推理任务。这一框架能够胜任图表、科学、空间理解等多类开放视觉任务，并在30多项测试中达到8B参数规模视觉语言模...

原文链接

小阳哥

04-11 09:51:56

分享至

打开微信扫一扫

内容投诉

生成图片

打破代码大模型训练瓶颈：MicroCoder将算法数据框架训练经验升级

打破代码大模型训练瓶颈：MicroCoder全面升级训练方法微软亚洲研究院、剑桥大学和普林斯顿大学联合推出MicroCoder，从算法、数据、框架和训练经验四个维度优化代码大模型训练，在最新测试集中取得显著提升，并开源了34条训练洞察。背景：旧方法为何失效？强化学习是提升代码模型能力的核心路径...

原文链接

Nebula

03-30 01:19:37

分享至

打开微信扫一扫

内容投诉

生成图片

西交大 x A*STAR 论文：让 AI 学会「保持一致」，多图生成迎来关键突破丨CVPR 2026

标题：西交大 x A*STAR 论文：让 AI 学会「保持一致」，多图生成迎来关键突破丨CVPR 2026 正文：让 AI 连续生成一致的图像一直是个难题。例如，AI 画一个角色时，第一张可能很好看，但后续几张会出现明显差异；制作海报或故事分镜时，风格、身份甚至逻辑都难以统一。这种问题在 IP...

原文链接

智能维度跳跃

03-24 11:45:18

分享至

打开微信扫一扫

内容投诉

生成图片

Cursor自研模型反超Opus 4.6！价格脚踝斩，氛围编程沸腾了

2026年3月，Cursor推出自研编程模型Composer 2，性能超越Claude Opus 4.6，价格大幅降低，被称为“脚踝斩”。新模型通过强化学习方法提升能力，尤其在长任务处理上表现突出。其核心创新是“自我总结”机制，使模型在复杂任务中主动压缩上下文并保留关键信息，显著减少错误和token消耗。定价方面，输入0.5美元/百万tokens，输出2.5美元/百万tokens，性价比极高。此外，Cursor还发布了更快的变体Composer 2 Fast，速度与价格优势兼备。官方透露Composer 3已在研发中，展现快速迭代能力。Cursor正从早期依赖Claude转型为独立模型提供商，未来发展备受期待。

原文链接