综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
2025年12月10日,理想汽车自动驾驶负责人郎咸朋针对宇树科技CEO王兴兴此前对VLA模型的质疑作出回应。王兴兴曾在8月的世界机器人大会上称VLA架构‘傻瓜式’并持怀疑态度,而郎咸朋强调,模型需与具身智能系统适配,数据才是关键。理想于9月推出全球首个VLA司机大模型,并通过12月6日的OTA 8.1更新优化功能,用户反馈显示其在特定场景下已具备物理世界认知能力。郎咸朋指出,脱离真实数据讨论架构是‘空中楼阁’,理想依托数百万辆车的数据闭环,使驾驶水平接近人类。他还提到,未来五到十年,具身机器人将呈现汽车类和人形类两种形态,理想VLA不仅服务当前汽车产品,也将助力未来汽车类机器人。目前,理想总算力达13EFLOPS,若明年接管里程达1000MPI,VLA将迎来‘ChatGPT时刻’。
原文链接
2025年12月,国产世界模型公司极佳视界发布并开源具身世界模型GigaWorld-0,首次实现90%训练数据由世界模型生成,使VLA模型性能提升近300%。该模型在新纹理、新视角和新物体位置三大泛化维度表现突出,突破了高质量机器人交互数据稀缺的瓶颈。GigaWorld-0由GigaWorld-0-Video和GigaWorld-0-3D两大组件构成,分别优化视觉保真度与物理准确性,并采用稀疏注意力机制和MoE架构提升效率。此外,极佳视界推出高效训练框架GigaTrain,支持FP8精度端到端训练,显著降低计算成本。实验表明,GigaWorld-0生成数据大幅提升下游任务成功率。项目已开源,链接见附。
原文链接
“最强具身VLA大模型”,究竟强在哪儿?
henry 发自 凹非寺
量子位 | 公众号 QbitAI
机器人基础模型 π*0.6 自发布以来便引发广泛关注。它不仅能让机器人连续13小时制作咖啡、数小时折叠衣物,还能精准组装工厂包装纸箱,任务成功率高达90%以上。然而,真正让 π*0.6 脱颖而出...
原文链接
缺数据也能拿SOTA?清华&上海AI Lab破解机器人RL两大瓶颈
视觉-语言-动作(VLA)模型是实现机器人复杂操作的关键,但其训练面临数据采集成本高和泛化能力不足的瓶颈。为此,研究团队提出了SimpleVLA-RL框架,基于veRL扩展,通过交互式轨迹采样、结果奖励建模和探索增强等设计,...
原文链接
2025年6月,吉利领投机器人公司宇树科技C轮融资,并在WAIC 2025展会上展示旗舰车型与全行业首个Agent架构智能座舱。同期,吉利智驾团队在CVPR 2025自动驾驶场景挖掘挑战赛中夺冠,彰显技术实力。吉利研发的VLA大模型为核心,推动智能座舱与辅助驾驶技术突破,目标实现“车位到车位”智能化体验。吉利汽车副总裁李传海表示,未来吉利可能成为全球最大机器人公司,依托年产销超300万辆规模、自主车企最大算力设施及自研大模型体系,迈向具身智能新阶段。
原文链接
正文:2025年8月19日,淘天集团未来生活实验室发布首个3D动作游戏专用VLA模型CombatVLA,已在ICCV 2025接收。该模型在《黑神话:悟空》和《只狼:影逝二度》等复杂3D战斗场景中,任务成功率超越GPT-4o及人类玩家,并实现50倍加速。CombatVLA基于3B参数规模,通过动作跟踪器采集的视频-动作对训练,采用“动作思维”(AoT)序列优化推理效率。实验表明,其在战斗理解基准测试中领先现有模型,平均推理延迟仅1.8秒,且具备强大泛化能力。团队计划进一步拓展模型在更多游戏及物理世界中的应用。论文与项目详情见相关页面。
原文链接
2025年7月10日,美国互联网券商巨头Robinhood的CEO Vlad Tenev联合Tudor Achim创立的人工智能初创公司Harmonic AI完成B轮融资,筹集1亿美元,估值达8.75亿美元。该公司专注于开发解决复杂数学问题的AI系统,目标是构建数学能力超越人类的超级智能(MSI)。其首个模型Aristotle已发布,具备自动形式化能力,并在MiniF2F基准测试中表现优异。Tenev表示,最终目标是解决重大未解数学问题,并扩展到物理与计算机科学领域,推动实现AGI(通用人工智能)。此轮融资由Kleiner Perkins领投,多家知名机构跟投。
原文链接
2025年6月26日,谷歌推出名为Gemini Robotics On-Device的视觉-语言-动作(VLA)模型,这是其首个可微调的VLA模型,专为双臂机器人设计。该模型可在设备本地离线运行,无需依赖网络,适用于对延迟敏感的场景。它具备强大的任务泛化能力,能理解自然语言指令并完成高灵巧度操作,如拉拉链、折叠衣物等。模型支持快速适应新任务,仅需50-100个样本即可展现良好性能,并已适配Franka FR3双臂机器人和Apollo人形机器人,展现了广泛的应用潜力。
原文链接
标题:全球首个零售VLA大模型发布!OpenWBT开源降低机器人遥操门槛
6月6日至7日,2025北京智源大会召开,汇聚顶尖科研机构、企业及开源社群。北京大学助理教授、银河通用机器人CTO王鹤博士受邀出席并展示最新成果。Galbot G1在主论坛全球直播,全程无遥操,自主完成货架取货任务。
此次发布的端到端具身大模型GroceryVLA,无需场景预采数据,支持复杂货架抓取与交付全流程自主执行。模型具备强适用性、通用性、跨场景泛化、自主决策及强抗干扰性,稳定适配商超环境。同时,银河通用推出OpenWBT开源系统,实现快速部署、多机型兼容及虚实遥操支持,大幅降低人形机器人操作门槛,推动具身智能技术落地应用。
https://github.com/GalaxyGeneralRobotics/OpenWBT
原文链接
6月5日消息,人工智能平台Hugging Face发布开源机器人AI模型SmolVLA。该模型在虚拟与现实环境中表现优异,优于许多大型机器人模型。SmolVLA由Hugging Face基于LeRobot社区数据集训练,拥有4.5亿参数,能高效运行于消费级GPU或MacBook等设备上。其独特之处在于“异步推理堆栈”,可分离视觉、听觉与行动处理,提升响应速度。SmolVLA作为Hugging Face机器人生态系统的一部分,已可用于控制第三方机械臂。此外,Hugging Face正通过收购Pollen Robotics扩展硬件布局,与英伟达、K-Scale Labs等企业共同推动开放机器人领域发展。
原文链接
加载更多
暂无内容