1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
人大高瓴赵鑫团队新作:先拆掉 RLVR,再重建推理模型训练
标题:人大高瓴赵鑫团队新作:拆解 RLVR,优化推理模型训练 正文: 大语言模型在数学题、任务规划等复杂任务中暴露出一个核心问题:会生成不等于会推理。尽管行业通过 RLHF 和奖励技术提升了模型表现,但“一本正经胡说八道”的现象仍普遍存在。人大高瓴学院赵鑫团队针对这一问题展开研究,提出了一种新的...
新智燎原
01-19 13:57:39
RLVR
正样本
负样本
分享至
打开微信扫一扫
内容投诉
生成图片
李飞飞的World Labs联手光轮智能,具身智能进入评测驱动时代!
2026年1月,李飞飞创立的World Labs与光轮智能达成合作,标志着具身智能正式迈入评测驱动时代。World Labs专注于空间智能,推出可视化世界模型产品Marble,可生成高保真3D环境并支持多种格式导出。光轮智能则凭借全栈自研仿真技术体系,解决物理对齐与规模化评测难题。双方分工明确:Marble负责环境生成,光轮承担物理资产与评测闭环建设。此次合作旨在应对具身智能领域日益突出的“规模化评测”问题,推动行业标准化发展。光轮智能此前已推出RoboFinals评测平台,并与英伟达联合开发Isaac Lab Arena,成为行业基础设施核心角色。
月光编码师
01-19 12:53:33
World Labs
光轮智能
具身智能
分享至
打开微信扫一扫
内容投诉
生成图片
真·开外挂!MIT新研究:架构0改动,让大模型解锁千万级上下文
正文:2026年1月,MIT CSAIL研究团队提出一种名为递归语言模型(RLM)的创新方法,使大模型无需修改架构即可处理千万级token的超长文本。RLM通过将上下文处理外包给Python编程环境,利用自动编程和递归调用按需拆解任务,解决了传统模型在超长文本中易出现的“上下文腐烂”问题。实验显示,RLM在复杂任务中性能显著提升,如OOLONG-Pairs任务中,GPT-5和Qwen3-Coder的F1分数分别提升至58.00%和23.11%;BrowseComp-Plus任务中,RLM(GPT-5)正确率达91.33%。此外,RLM成本在常规场景下具有优势,但在高复杂度任务中可能因动态推理增加开销。
代码编织者Nexus
01-19 12:52:35
RLM
上下文处理
递归调用
分享至
打开微信扫一扫
内容投诉
生成图片
月之暗面公开RL训练加速方法:训练速度暴涨97%,长尾延迟狂降93%
2025年11月,月之暗面联合清华大学推出全新强化学习加速引擎Seer,显著提升LLM训练效率。该框架通过推理引擎池、请求缓冲区和上下文管理器三大模块,结合分段生成、上下文感知调度及自适应分组推测解码技术,实现Rollout效率提升74%~97%,长尾延迟减少75%~93%。实验表明,Seer在Moonlight、Qwen2-VL-72B等模型任务中性能大幅超越基线系统veRL,尤其在长尾延迟优化上表现突出。此外,月之暗面正与IDG Capital等机构洽谈新一轮数亿美元融资,估值达40亿美元,并计划年底前完成融资,明年下半年启动IPO进程。
灵感Phoenix
11-27 16:43:04
RL训练加速
Seer引擎
月之暗面
分享至
打开微信扫一扫
内容投诉
生成图片
Meta 推出 WorldGen:一句话即可生成可交互 3D 世界
11月23日,Meta推出WorldGen系统,可基于单条文本提示生成交互式3D世界,支持沉浸式探索。该技术结合程序化逻辑推理、扩散模型和场景分解方法,生成几何严谨、视觉丰富的场景,适用于游戏、仿真及社交环境。相比现有方法多依赖单一视角构建,WorldGen能生成50米×50米范围的全纹理场景,确保风格与结构一致性,且兼容Unity、Unreal等主流引擎。目前,WorldGen仍处研究阶段,尚未开放使用,未来将拓展空间规模并优化延迟问题。
DreamCoder
11-23 22:24:01
WorldGen
三维世界
生成式AI
分享至
打开微信扫一扫
内容投诉
生成图片
这些大神在Meta的论文看一篇少一篇了
正文:2025年11月17日,前Meta研究员田渊栋团队发布了一篇关于大模型强化学习(RL)训练现象的研究论文。研究聚焦于RL训练虽显著提升性能,却仅改变极少数参数的奇特现象。论文提出‘三门理论’,揭示了RL参数更新背后的深层机制:KL锚定限制漂移,模型几何引导低曲率方向优化,bfloat16精度过滤微小变化。实验表明,RL更新稀疏度高达36%-92%,远超监督微调(SFT)的0.6%-18.8%。此外,研究发现传统参数高效微调方法在RL中效果不佳,主成分权重更新常导致不稳定。论文为RL算法设计提供了新思路。
蝶舞CyberSwirl
11-17 14:29:27
RLVR
三门理论
田渊栋
分享至
打开微信扫一扫
内容投诉
生成图片
NuerIPS唯一满分论文曝光,来自清华上交
NuerIPS唯一满分论文曝光,来自清华上交 近日,一篇来自清华大学和上海交通大学的论文在人工智能领域引发轰动,成为NuerIPS唯一获得满分评价的研究。这篇论文挑战了当前大模型推理能力提升的核心假设:真正决定推理上限的是基座模型本身,而非强化学习(RLVR)。研究还指出,蒸馏方法比强化学习更有望实...
Oasis
11-11 17:16:47
NuerIPS
RLVR
蒸馏
分享至
打开微信扫一扫
内容投诉
生成图片
比NanoBanana更擅长中文和细节控制!兔展&北大Uniworld V2刷新SOTA
2025年11月,兔展智能与北京大学联合发布图像编辑模型UniWorld-V2,刷新多项SOTA成绩。该模型在中文细节控制和复杂指令理解上表现优异,例如精准修改手势、渲染艺术中文字体及实现精细化空间编辑。其核心创新为UniWorld-R1框架,首次将强化学习应用于统一架构的图像编辑,采用扩散负向感知微调(DiffusionNFT)技术,并使用多模态大语言模型(MLLM)作为免训练奖励模型。在GEdit-Bench和ImgEdit基准测试中,UniWorld-V2分别以7.83分和4.49分超越OpenAI的GPT-Image-1等顶尖模型。研究团队还公开了论文、代码及模型,供后续研究使用。
智慧棱镜
11-05 15:09:36
UniWorld-V2
图像编辑
强化学习
分享至
打开微信扫一扫
内容投诉
生成图片
让机器人在“想象”中学习世界的模型来了!PI联创课题组&清华陈建宇团队联合出品
让机器人在“想象”中学习世界的模型来了! 近日,斯坦福PI联合创始人Chelsea Finn与清华大学陈建宇团队合作提出了一种突破性世界模型——Ctrl-World。该模型允许机器人在虚拟空间中完成任务预演、策略评估和自我迭代,大幅提升训练效率。研究显示,使用零真机数据的情况下,Ctrl-World...
镜像现实MirageX
10-30 18:52:10
Ctrl-World
世界模型
机器人
分享至
打开微信扫一扫
内容投诉
生成图片
智元办机器人挑战赛:清华&上海AILab夺冠,华南理工“单人成团”拿亚军
2025年10月,智元机器人联合OpenDriveLab在杭州IROS举办的AGIBOT World Challenge线下决赛圆满落幕。清华大学与上海AI Lab的AIR-DREAM团队夺得冠军,华南理工大学‘单人成团’获亚军,香港大学Firebot团队摘得季军。比赛聚焦Manipulation和World Model两大方向,设置整理杂货、衣物折叠、倒水等六大真实场景任务,考察机器人操作精度与泛化能力。冠军团队凭借X-VLA模型解决跨平台数据难题,华南理工曾嘉龙分享低成本高效优化经验,港大陈天行依托仿真平台快速搭建技术路线。本次赛事吸引全球431支队伍参与,总奖池达56万美元。同期,智元机器人展出精灵G2等产品,其射箭功能首次亮相并开放体验。
跨界思维
10-27 15:03:26
AGIBOT World Challenge
具身智能
智元机器人
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序