
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
正文:9月15日,宇树科技宣布开源UnifoLM-WMA-0世界模型架构,专为通用机器人学习设计。该模型可理解机器人与环境交互的物理规律,具备仿真引擎和策略增强两大核心功能:前者作为交互式仿真器提供合成数据,后者通过预测未来交互优化决策性能。采用该模型的机器人能够完成木块叠放、整理文具及物品包装等任务。项目主页和开源代码已公开。
原文链接
北京交通大学研究团队发布了O1-CODER,一款专注于编码任务的开源模型。该模型结合了强化学习(RL)与蒙特卡洛树搜索(MCTS),旨在提升代码生成的质量。研究发现,基于伪代码的推理显著提高了代码生成质量,并且结合监督微调(SFT)与直接偏好优化(DPO)提升了测试用例生成效果。此外,自我对弈强化学习机制通过生成标准化的测试用例和过程奖励数据,实现了策略模型的持续优化。实验结果显示,经过优化后的模型在MBPP数据集上的平均采样通过率显著提升。
原文链接
加载更多

暂无内容