综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
标题:人大高瓴赵鑫团队新作:拆解 RLVR,优化推理模型训练
正文:
大语言模型在数学题、任务规划等复杂任务中暴露出一个核心问题:会生成不等于会推理。尽管行业通过 RLHF 和奖励技术提升了模型表现,但“一本正经胡说八道”的现象仍普遍存在。人大高瓴学院赵鑫团队针对这一问题展开研究,提出了一种新的...
原文链接
11月24日,顺络电子在机构调研中透露,公司TLVR电感产品性能和单价较非TLVR类型AI电感显著提升,未来将推动AI服务器磁性器件价值增长。顺络已提前布局TLVR技术,走在行业前沿,随着客户需求增加,数据中心业务预计进入快速发展阶段。目前,公司TLVR产品已实现批量供应,展现出市场竞争力与技术优势。
原文链接
正文:2025年11月17日,前Meta研究员田渊栋团队发布了一篇关于大模型强化学习(RL)训练现象的研究论文。研究聚焦于RL训练虽显著提升性能,却仅改变极少数参数的奇特现象。论文提出‘三门理论’,揭示了RL参数更新背后的深层机制:KL锚定限制漂移,模型几何引导低曲率方向优化,bfloat16精度过滤微小变化。实验表明,RL更新稀疏度高达36%-92%,远超监督微调(SFT)的0.6%-18.8%。此外,研究发现传统参数高效微调方法在RL中效果不佳,主成分权重更新常导致不稳定。论文为RL算法设计提供了新思路。
原文链接
NuerIPS唯一满分论文曝光,来自清华上交
近日,一篇来自清华大学和上海交通大学的论文在人工智能领域引发轰动,成为NuerIPS唯一获得满分评价的研究。这篇论文挑战了当前大模型推理能力提升的核心假设:真正决定推理上限的是基座模型本身,而非强化学习(RLVR)。研究还指出,蒸馏方法比强化学习更有望实...
原文链接
标题:虚假奖励竟能提升Qwen性能25%!
即使使用错误的奖励信号,Qwen的性能也能显著提升?华盛顿大学的博士生团队发现,使用Qwen模型(尤其是数学版本),对虚假奖励进行强化学习(RLVR),依然能让MATH-500的准确率提高约25%。团队实验表明,RLVR通过激活预训练中的推理能力提升性能,...
原文链接
据《科创板日报》14日报道,IDC最新报告显示,2024年全球AR/VR总投资规模达152.2亿美元,预计2029年将增长至397.0亿美元,五年复合增长率21.1%。其中,中国AR/VR市场表现尤为突出,预计2024-2029年的复合增长率高达41.1%,涨幅位居全球第一,超过美国和西欧等其他八个区域。中国市场的高速增长显示出强劲的发展潜力,将进一步推动全球AR/VR技术的应用与普及。
原文链接
据《科创板日报》10日消息,近日在加拿大温哥华举办的TED 2025大会上,谷歌展示了其最新研发的AR眼镜和VR设备。这款AR眼镜集成了微型显示屏与谷歌Gemini AI助手,外观类似普通眼镜,可实现实时翻译、书籍扫描等功能,并能通过与手机的数据流传输保持轻便,同时兼容手机上的各类应用。此外,谷歌还推出了一款类似于Apple Vision Pro的VR设备。此次展示凸显了谷歌在增强现实与虚拟现实领域的技术进步。
原文链接
阿里通义团队于3月11日推出R1-Omni模型,该模型结合了强化学习(RLVR)与多模态技术,尤其适用于复杂全模态场景。R1-Omni通过增强透明性,使得音频和视频信息的作用更加清晰可见。在情绪识别等任务中,R1-Omni能明确展示哪些模态信息对特定判断至关重要。实验结果显示,相比原始基线模型,R1-Omni在同分布测试集上的表现提升了超过35%,而在不同分布测试集上,其泛化能力同样出色。R1-Omni开源地址已公布,包括论文、Github及模型下载链接。
原文链接
12月27日晚7点,36氪在抖音【氪财经】直播间举办了【科技上新货】直播活动。这是36氪首次尝试抖音直播带货,持续近5小时,展示了包括AI技术、AR/VR体验和黑科技在内的多款前沿产品。主播团队深入浅出地讲解技术细节,并分享使用心得,使观众对科技产品有了更全面的了解。此次直播不仅是带货,更是探索媒体新边界的一次实验,旨在打破传统媒体界限,将科技成果直接呈现给大众。
原文链接
正文:近日,南洋理工大学的研究团队发布了全球首个VR端3D角色扮演AI系统SOLAMI,该系统能够识别用户肢体语言并进行沉浸式聊天。SOLAMI支持多种角色,包括蝙蝠侠、机器人等,能根据用户语音和动作生成相应的回应。它采用端到端VLA模型,结合Motion Tokenizer和Speech Tokenizer编码用户输入,通过LLM基座生成角色的语音和动作,再通过解码器驱动角色。SOLAMI的训练分为多任务预训练和指令微调两阶段,使用合成数据集提高模型性能。实验显示,SOLAMI在动作和语音质量上均优于对比方法,延迟更低。该技术为AI角色扮演提供了新方向。项目主页:
原文链接
加载更多
暂无内容