VLA - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

理想自动驾驶负责人郎咸朋回应宇树王兴兴对 VLA 质疑：空谈架构不如看疗效

2025年12月10日，理想汽车自动驾驶负责人郎咸朋针对宇树科技CEO王兴兴此前对VLA模型的质疑作出回应。王兴兴曾在8月的世界机器人大会上称VLA架构‘傻瓜式’并持怀疑态度，而郎咸朋强调，模型需与具身智能系统适配，数据才是关键。理想于9月推出全球首个VLA司机大模型，并通过12月6日的OTA 8.1更新优化功能，用户反馈显示其在特定场景下已具备物理世界认知能力。郎咸朋指出，脱离真实数据讨论架构是‘空中楼阁’，理想依托数百万辆车的数据闭环，使驾驶水平接近人类。他还提到，未来五到十年，具身机器人将呈现汽车类和人形类两种形态，理想VLA不仅服务当前汽车产品，也将助力未来汽车类机器人。目前，理想总算力达13EFLOPS，若明年接管里程达1000MPI，VLA将迎来‘ChatGPT时刻’。

原文链接

数码游侠

12-10 18:00:42

VLA

具身智能

自动驾驶

分享至

打开微信扫一扫

内容投诉

生成图片

世界模型和具身大脑最新突破：90%生成数据，VLA性能暴涨300%｜开源

2025年12月，国产世界模型公司极佳视界发布并开源具身世界模型GigaWorld-0，首次实现90%训练数据由世界模型生成，使VLA模型性能提升近300%。该模型在新纹理、新视角和新物体位置三大泛化维度表现突出，突破了高质量机器人交互数据稀缺的瓶颈。GigaWorld-0由GigaWorld-0-Video和GigaWorld-0-3D两大组件构成，分别优化视觉保真度与物理准确性，并采用稀疏注意力机制和MoE架构提升效率。此外，极佳视界推出高效训练框架GigaTrain，支持FP8精度端到端训练，显著降低计算成本。实验表明，GigaWorld-0生成数据大幅提升下游任务成功率。项目已开源，链接见附。

原文链接

阿达旻

12-02 14:17:17

VLA性能

世界模型

具身智能

分享至

打开微信扫一扫

内容投诉

生成图片

“最强具身VLA大模型”，究竟强在哪儿？

“最强具身VLA大模型”，究竟强在哪儿？ henry 发自凹非寺量子位 | 公众号 QbitAI 机器人基础模型 π*0.6 自发布以来便引发广泛关注。它不仅能让机器人连续13小时制作咖啡、数小时折叠衣物，还能精准组装工厂包装纸箱，任务成功率高达90%以上。然而，真正让 π*0.6 脱颖而出...

原文链接

AGI探路者

11-21 16:29:20

RECAP方法

具身VLA模型

机器人学习

分享至

打开微信扫一扫

内容投诉

生成图片

缺数据也能拿SOTA？清华&上海AI Lab破解机器人RL两大瓶颈

缺数据也能拿SOTA？清华&上海AI Lab破解机器人RL两大瓶颈视觉-语言-动作（VLA）模型是实现机器人复杂操作的关键，但其训练面临数据采集成本高和泛化能力不足的瓶颈。为此，研究团队提出了SimpleVLA-RL框架，基于veRL扩展，通过交互式轨迹采样、结果奖励建模和探索增强等设计，...

原文链接

代码编织者

09-26 11:24:15

SimpleVLA-RL

VLA模型

强化学习

分享至

打开微信扫一扫

内容投诉

生成图片

对话吉利技术一号位：VLA大模型打底，冲刺全球最大机器人公司

2025年6月，吉利领投机器人公司宇树科技C轮融资，并在WAIC 2025展会上展示旗舰车型与全行业首个Agent架构智能座舱。同期，吉利智驾团队在CVPR 2025自动驾驶场景挖掘挑战赛中夺冠，彰显技术实力。吉利研发的VLA大模型为核心，推动智能座舱与辅助驾驶技术突破，目标实现“车位到车位”智能化体验。吉利汽车副总裁李传海表示，未来吉利可能成为全球最大机器人公司，依托年产销超300万辆规模、自主车企最大算力设施及自研大模型体系，迈向具身智能新阶段。

原文链接

神经网络领航员

09-02 09:28:19

VLA大模型

吉利

机器人公司

分享至

打开微信扫一扫

内容投诉

生成图片

打黑神话 & 只狼超越人类玩家，淘天集团发布首个 3D 动作游戏专用 VLA 模型

正文：2025年8月19日，淘天集团未来生活实验室发布首个3D动作游戏专用VLA模型CombatVLA，已在ICCV 2025接收。该模型在《黑神话：悟空》和《只狼：影逝二度》等复杂3D战斗场景中，任务成功率超越GPT-4o及人类玩家，并实现50倍加速。CombatVLA基于3B参数规模，通过动作跟踪器采集的视频-动作对训练，采用“动作思维”（AoT）序列优化推理效率。实验表明，其在战斗理解基准测试中领先现有模型，平均推理延迟仅1.8秒，且具备强大泛化能力。团队计划进一步拓展模型在更多游戏及物理世界中的应用。论文与项目详情见相关页面。

原文链接

小阳哥

08-19 15:02:34

CombatVLA

只狼：影逝二度

黑神话：悟空

分享至

打开微信扫一扫

内容投诉

生成图片

美国版梁文锋来了

2025年7月10日，美国互联网券商巨头Robinhood的CEO Vlad Tenev联合Tudor Achim创立的人工智能初创公司Harmonic AI完成B轮融资，筹集1亿美元，估值达8.75亿美元。该公司专注于开发解决复杂数学问题的AI系统，目标是构建数学能力超越人类的超级智能（MSI）。其首个模型Aristotle已发布，具备自动形式化能力，并在MiniF2F基准测试中表现优异。Tenev表示，最终目标是解决重大未解数学问题，并扩展到物理与计算机科学领域，推动实现AGI（通用人工智能）。此轮融资由Kleiner Perkins领投，多家知名机构跟投。

原文链接

AI创想团

07-11 15:38:02

Harmonic AI

Vlad Tenev

数学超级智能

分享至

打开微信扫一扫

内容投诉

生成图片

给机器人装上“离线大脑”+“安卓系统” 谷歌端上“自家最强”VLA模型

2025年6月26日，谷歌推出名为Gemini Robotics On-Device的视觉-语言-动作（VLA）模型，这是其首个可微调的VLA模型，专为双臂机器人设计。该模型可在设备本地离线运行，无需依赖网络，适用于对延迟敏感的场景。它具备强大的任务泛化能力，能理解自然语言指令并完成高灵巧度操作，如拉拉链、折叠衣物等。模型支持快速适应新任务，仅需50-100个样本即可展现良好性能，并已适配Franka FR3双臂机器人和Apollo人形机器人，展现了广泛的应用潜力。

原文链接

梦境编程师

06-26 16:00:33

VLA模型

安卓系统

离线运行

分享至

打开微信扫一扫

内容投诉

生成图片

双重突破：全球首个零售VLA大模型来了！开源OpenWBT让机器人遥操门槛暴降！

标题：全球首个零售VLA大模型发布！OpenWBT开源降低机器人遥操门槛 6月6日至7日，2025北京智源大会召开，汇聚顶尖科研机构、企业及开源社群。北京大学助理教授、银河通用机器人CTO王鹤博士受邀出席并展示最新成果。Galbot G1在主论坛全球直播，全程无遥操，自主完成货架取货任务。此次发布的端到端具身大模型GroceryVLA，无需场景预采数据，支持复杂货架抓取与交付全流程自主执行。模型具备强适用性、通用性、跨场景泛化、自主决策及强抗干扰性，稳定适配商超环境。同时，银河通用推出OpenWBT开源系统，实现快速部署、多机型兼容及虚实遥操支持，大幅降低人形机器人操作门槛，推动具身智能技术落地应用。 https://github.com/GalaxyGeneralRobotics/OpenWBT

原文链接

超频思维站

06-09 14:26:20

GroceryVLA

OpenWBT

具身智能

分享至

打开微信扫一扫

内容投诉

生成图片

Hugging Face 称其开源机器人模型 SmolVLA 效率极高，能在苹果 MacBook 上运行

6月5日消息，人工智能平台Hugging Face发布开源机器人AI模型SmolVLA。该模型在虚拟与现实环境中表现优异，优于许多大型机器人模型。SmolVLA由Hugging Face基于LeRobot社区数据集训练，拥有4.5亿参数，能高效运行于消费级GPU或MacBook等设备上。其独特之处在于“异步推理堆栈”，可分离视觉、听觉与行动处理，提升响应速度。SmolVLA作为Hugging Face机器人生态系统的一部分，已可用于控制第三方机械臂。此外，Hugging Face正通过收购Pollen Robotics扩展硬件布局，与英伟达、K-Scale Labs等企业共同推动开放机器人领域发展。

原文链接