1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
人大高瓴赵鑫团队新作:先拆掉 RLVR,再重建推理模型训练
标题:人大高瓴赵鑫团队新作:拆解 RLVR,优化推理模型训练 正文: 大语言模型在数学题、任务规划等复杂任务中暴露出一个核心问题:会生成不等于会推理。尽管行业通过 RLHF 和奖励技术提升了模型表现,但“一本正经胡说八道”的现象仍普遍存在。人大高瓴学院赵鑫团队针对这一问题展开研究,提出了一种新的...
新智燎原
01-19 13:57:39
RLVR
正样本
负样本
分享至
打开微信扫一扫
内容投诉
生成图片
顺络电子:目前公司TLVR已有批量向客户供应
11月24日,顺络电子在机构调研中透露,公司TLVR电感产品性能和单价较非TLVR类型AI电感显著提升,未来将推动AI服务器磁性器件价值增长。顺络已提前布局TLVR技术,走在行业前沿,随着客户需求增加,数据中心业务预计进入快速发展阶段。目前,公司TLVR产品已实现批量供应,展现出市场竞争力与技术优势。
智能涌动
11-24 11:55:03
AI服务器
TLVR电感
顺络电子
分享至
打开微信扫一扫
内容投诉
生成图片
这些大神在Meta的论文看一篇少一篇了
正文:2025年11月17日,前Meta研究员田渊栋团队发布了一篇关于大模型强化学习(RL)训练现象的研究论文。研究聚焦于RL训练虽显著提升性能,却仅改变极少数参数的奇特现象。论文提出‘三门理论’,揭示了RL参数更新背后的深层机制:KL锚定限制漂移,模型几何引导低曲率方向优化,bfloat16精度过滤微小变化。实验表明,RL更新稀疏度高达36%-92%,远超监督微调(SFT)的0.6%-18.8%。此外,研究发现传统参数高效微调方法在RL中效果不佳,主成分权重更新常导致不稳定。论文为RL算法设计提供了新思路。
蝶舞CyberSwirl
11-17 14:29:27
RLVR
三门理论
田渊栋
分享至
打开微信扫一扫
内容投诉
生成图片
NuerIPS唯一满分论文曝光,来自清华上交
NuerIPS唯一满分论文曝光,来自清华上交 近日,一篇来自清华大学和上海交通大学的论文在人工智能领域引发轰动,成为NuerIPS唯一获得满分评价的研究。这篇论文挑战了当前大模型推理能力提升的核心假设:真正决定推理上限的是基座模型本身,而非强化学习(RLVR)。研究还指出,蒸馏方法比强化学习更有望实...
Oasis
11-11 17:16:47
NuerIPS
RLVR
蒸馏
分享至
打开微信扫一扫
内容投诉
生成图片
奖励是假的,能让Qwen提升25%性能却是真的!
标题:虚假奖励竟能提升Qwen性能25%! 即使使用错误的奖励信号,Qwen的性能也能显著提升?华盛顿大学的博士生团队发现,使用Qwen模型(尤其是数学版本),对虚假奖励进行强化学习(RLVR),依然能让MATH-500的准确率提高约25%。团队实验表明,RLVR通过激活预训练中的推理能力提升性能,...
AI奇点纪元
05-29 19:38:47
Qwen
RLVR
虚假奖励
分享至
打开微信扫一扫
内容投诉
生成图片
IDC:预计中国AR/VR市场五年复合增长率达41.1%
据《科创板日报》14日报道,IDC最新报告显示,2024年全球AR/VR总投资规模达152.2亿美元,预计2029年将增长至397.0亿美元,五年复合增长率21.1%。其中,中国AR/VR市场表现尤为突出,预计2024-2029年的复合增长率高达41.1%,涨幅位居全球第一,超过美国和西欧等其他八个区域。中国市场的高速增长显示出强劲的发展潜力,将进一步推动全球AR/VR技术的应用与普及。
数字墨迹
05-14 13:15:12
AR/VR
IDC
中国市场
分享至
打开微信扫一扫
内容投诉
生成图片
谷歌在TED上展示新款AR眼镜和VR设备
据《科创板日报》10日消息,近日在加拿大温哥华举办的TED 2025大会上,谷歌展示了其最新研发的AR眼镜和VR设备。这款AR眼镜集成了微型显示屏与谷歌Gemini AI助手,外观类似普通眼镜,可实现实时翻译、书籍扫描等功能,并能通过与手机的数据流传输保持轻便,同时兼容手机上的各类应用。此外,谷歌还推出了一款类似于Apple Vision Pro的VR设备。此次展示凸显了谷歌在增强现实与虚拟现实领域的技术进步。
幻彩逻辑RainbowLogic
04-10 13:54:04
AR眼镜
VR设备
谷歌
分享至
打开微信扫一扫
内容投诉
生成图片
阿里通义团队开源 R1-Omni:多模态模型 + RLVR,让各模态作用清晰可见
阿里通义团队于3月11日推出R1-Omni模型,该模型结合了强化学习(RLVR)与多模态技术,尤其适用于复杂全模态场景。R1-Omni通过增强透明性,使得音频和视频信息的作用更加清晰可见。在情绪识别等任务中,R1-Omni能明确展示哪些模态信息对特定判断至关重要。实验结果显示,相比原始基线模型,R1-Omni在同分布测试集上的表现提升了超过35%,而在不同分布测试集上,其泛化能力同样出色。R1-Omni开源地址已公布,包括论文、Github及模型下载链接。
跨界思维
03-11 19:46:02
R1-Omni
RLVR
多模态
分享至
打开微信扫一扫
内容投诉
生成图片
36氪「科技上新货」:带你提前100小时看见2025
12月27日晚7点,36氪在抖音【氪财经】直播间举办了【科技上新货】直播活动。这是36氪首次尝试抖音直播带货,持续近5小时,展示了包括AI技术、AR/VR体验和黑科技在内的多款前沿产品。主播团队深入浅出地讲解技术细节,并分享使用心得,使观众对科技产品有了更全面的了解。此次直播不仅是带货,更是探索媒体新边界的一次实验,旨在打破传统媒体界限,将科技成果直接呈现给大众。
像素宇宙
01-03 12:39:04
AR/VR体验
未来生活方式
科技产品
分享至
打开微信扫一扫
内容投诉
生成图片
首个 VR 端 3D 角色扮演 AI 发布:端到端 VLA 模型驱动,唱跳都能陪你玩
正文:近日,南洋理工大学的研究团队发布了全球首个VR端3D角色扮演AI系统SOLAMI,该系统能够识别用户肢体语言并进行沉浸式聊天。SOLAMI支持多种角色,包括蝙蝠侠、机器人等,能根据用户语音和动作生成相应的回应。它采用端到端VLA模型,结合Motion Tokenizer和Speech Tokenizer编码用户输入,通过LLM基座生成角色的语音和动作,再通过解码器驱动角色。SOLAMI的训练分为多任务预训练和指令微调两阶段,使用合成数据集提高模型性能。实验显示,SOLAMI在动作和语音质量上均优于对比方法,延迟更低。该技术为AI角色扮演提供了新方向。项目主页:
未来编码者
12-09 14:28:52
ai
VR
角色扮演
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序