综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
【机器人运控训练步入分钟级时代!清华AIR开源UniLab】2026年6月,清华大学AIR联合多所高校及企业正式开源全新机器人强化学习训练架构UniLab。该架构打破传统“GPU包揽全部”范式,首创“CPU高效仿真+GPU策略训练”异构高吞吐底座。实测显示,UniLab训练速度暴涨3至10倍,仅需3分钟即可训好人形机器人走路,且彻底解除CUDA绑定,在Mac上也能本地高效调训。目前,团队已将策略成功部署于四足行走、人形运动等6类真机任务,实现仿真到真机的完整闭环。这标志着机器人运控训练正式迈向“分钟级”时代!
原文链接
2026年5月,OpenAI核心研究员翁家翌提出强化学习新范式——启发式学习(HL),无需神经网络训练和梯度更新,仅靠GPT-5.4驱动的Codex自主迭代代码。该方法在经典游戏Breakout中达到864分满分,并在Atari 57测试集中表现媲美主流算法PPO,部分成绩超越人类玩家。HL通过显式代码规则实现状态-动作映射,解决了传统深度强化学习的灾难性遗忘、黑箱决策和样本效率低下等问题。此外,在MuJoCo机器人仿真任务中,HL表现出色,四足机器人Ant评分突破6000分。翁家翌指出,HL适合策略持续迭代场景,但暂无法解决如ImageNet等复杂识别任务,未来需探索与神经网络融合的可能性。
原文链接
刘壮陈丹琦新作:开源通用视觉推理RL框架,0思考数据刷新SOTA
量子位 | 公众号 QbitAI
普林斯顿刘壮团队联合陈丹琦推出了一款开源强化学习(RL)框架——Vero,专攻通用视觉推理任务。这一框架能够胜任图表、科学、空间理解等多类开放视觉任务,并在30多项测试中达到8B参数规模视觉语言模...
原文链接
打破代码大模型训练瓶颈:MicroCoder全面升级训练方法
微软亚洲研究院、剑桥大学和普林斯顿大学联合推出MicroCoder,从算法、数据、框架和训练经验四个维度优化代码大模型训练,在最新测试集中取得显著提升,并开源了34条训练洞察。
背景:旧方法为何失效?
强化学习是提升代码模型能力的核心路径...
原文链接
标题:西交大 x A*STAR 论文:让 AI 学会「保持一致」,多图生成迎来关键突破丨CVPR 2026
正文:
让 AI 连续生成一致的图像一直是个难题。例如,AI 画一个角色时,第一张可能很好看,但后续几张会出现明显差异;制作海报或故事分镜时,风格、身份甚至逻辑都难以统一。这种问题在 IP...
原文链接
2026年3月,Cursor推出自研编程模型Composer 2,性能超越Claude Opus 4.6,价格大幅降低,被称为“脚踝斩”。新模型通过强化学习方法提升能力,尤其在长任务处理上表现突出。其核心创新是“自我总结”机制,使模型在复杂任务中主动压缩上下文并保留关键信息,显著减少错误和token消耗。定价方面,输入0.5美元/百万tokens,输出2.5美元/百万tokens,性价比极高。此外,Cursor还发布了更快的变体Composer 2 Fast,速度与价格优势兼备。官方透露Composer 3已在研发中,展现快速迭代能力。Cursor正从早期依赖Claude转型为独立模型提供商,未来发展备受期待。
原文链接
3月18日,轻舟智航联合创始人、董事长兼CEO于骞博士在德国慕尼黑‘智能汽车与智能制造论坛’上发表演讲,提出‘世界模型+强化学习’是实现物理AI的必经之路。他指出,自动驾驶是物理AI的最佳训练场,依托世界模型与强化学习,AI可理解物理规律和社会常识决策。轻舟智航已实现辅助驾驶系统搭载量突破100万台,并在仅128TOPS算力平台上实现领先的城市NOA功能。公司计划2026年试点Robotaxi业务,2027年规模化部署。轻舟还宣布慕尼黑成为其欧洲新锚点,将中国复杂交通环境中的AI技术与德国工程底蕴结合,推动全球化布局。
原文链接
2026年2月,清华大学刘洋团队发布论文《DOCTOR-R1: Mastering Clinical Inquiry with Experiential Agentic Reinforcement Learning》,揭示了为何参数规模更大的医疗AI模型(如70B)在真实问诊中表现不如较小的模型(如8B)。研究表明,传统静态评测方式无法反映模型在动态临床场景中的能力,现有模型常因提问策略僵化、高风险信号反应迟钝等问题失效。DOCTOR-R1通过强化学习和部分可观测马尔可夫决策过程建模,在多轮问诊中展现出更优的提问策略与沟通能力,显著提升诊断准确性与安全性。研究强调真实临床能力需结合交互训练,并为医疗AI发展提供了新范式。
原文链接
标题:清华刘知远团队论文:强化学习能否教会大模型新能力?| ICLR 2026
正文:
随着大语言模型的规模和预训练强度不断提升,强化学习在后训练阶段的角色正发生变化。尽管它仍是提升推理和多步决策表现的关键技术,但越来越多的实验表明,强化学习的性能提升往往难以等同于“新能力的形成”。尤其是在 p...
原文链接
2026年2月5日,中金公司发布研报指出,全球大模型技术在推理、编程、Agentic及多模态能力上已取得显著进步,但在稳定性与幻觉率等方面仍有不足。展望未来,中金预计2026年大模型将在强化学习、模型记忆和上下文工程等领域实现更多突破,从短context生成迈向长思维链任务,从文本交互扩展至原生多模态应用,进一步接近通用人工智能(AGI)的长期目标。
原文链接
加载更多
暂无内容