
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
MiniMax M1全球技术闭门会探讨了RL、混合架构及长上下文的前沿话题。
RL能否赋予模型新能力?
RL在有限上下文长度下能提升模型能力,通过改变输出分布优化性能。例如,预训练需10万token解决的问题,经RL可能仅需1万token。然而,Reward Modeling仍是核心瓶颈,尤其是非结...
原文链接
7月19日,开源网络工具cURL开发者Daniel Stenberg透露,因被AI生成的虚假漏洞报告轰炸,cURL考虑停止其安全漏洞赏金项目。自2019年以来,该项目已为81名安全漏洞发现者发放9万美元奖励(约合64.7万元人民币)。然而,近期不怀好意者利用AI工具批量生成‘垃圾漏洞报告’,上周报告量激增至平时8倍,且大部分内容不实。cURL安全团队仅7人,需耗时30分钟至3小时逐一核实漏洞真实性,导致时间和精力严重浪费。Daniel Stenberg警告,若情况无法改善,可能取消该赏金项目。
原文链接
2025年7月,腾讯混元数字人团队发布RLVER框架,突破开放域强化学习(RL)难题。该框架通过构建“环境+奖励”一体化的用户模拟器,解决了真实交互中情商优化的三大困境:环境、奖励和训练难题。经RLVER训练的Qwen2.5-7B模型,在情感对话基准Sentient-Benchmark上的得分从13.3跃升至79.2,表现比肩GPT-4o和Gemini 2.5 Pro等顶级模型,同时避免了通用能力衰退。研究还揭示“思考式”与“反应式”模型的不同路径,以及温和训练环境对早期成长的重要性。相关论文已发布,代码与模型开源。
原文链接
7月9日,Meta(META.US)股价涨近2%,报734.34美元。消息称,Meta斥资30亿欧元(约35亿美元)收购雷朋眼镜母公司EssilorLuxottica约3%股权,加码AI智能眼镜业务。知情人士透露,Meta正考虑未来将持股比例提升至约5%,但计划仍可能调整。Meta首席执行官扎克伯格表示,智能眼镜是公司发展人工智能与沉浸式体验的重要载体。
原文链接
6月10日,Meta公司推出LlamaRL强化学习框架,采用全异步分布式设计,在405B参数模型上将强化学习步骤时间从635.8秒缩短至59.5秒,速度提升10.7倍。强化学习通过反馈调整输出,已成为大语言模型优化性能的关键部分。然而,其高资源需求一直是个难题。LlamaRL基于PyTorch构建,通过独立执行器并行处理生成、训练和奖励模型,大幅减少等待时间。该框架利用NVIDIA NVLink技术和分布式直接内存访问(DDMA),使405B参数模型权重同步仅需2秒。测试显示,LlamaRL在8B、70B和405B模型上的训练时间分别缩短至8.90秒、20.67秒和59.5秒,性能稳定甚至有所提升,解决了内存限制和GPU效率问题,为大语言模型训练提供了高效解决方案。
原文链接
6月4日,英伟达推出ProRL强化学习方法,通过延长训练至超2000步并扩展多领域数据(数学、编程、STEM等共13.6万样本),成功开发出全球最佳的1.5B参数推理模型Nemotron-Research-Reasoning-Qwen-1.5B。该模型在多项基准测试中表现优异,尤其在数学领域提升15.7%,编程任务pass@1准确率提升14.4%,STEM推理及指令遵循分别提升25.9%和22.0%,逻辑谜题奖励值提升54.8%,展现强大泛化能力。此前,强化学习在推理模型中的应用受限,现有方法如RLVR未显著优于基础模型。英伟达采用verl框架和改进GRPO方法实现突破。
原文链接
标题:GPT-4o解验证码成功率仅40%?MetaAgentX发布Open CaptchaWorld平台
MetaAgentX团队推出Open CaptchaWorld,首个专注多模态Agent解验证码能力的研究平台。实测显示,人类解题成功率为93.3%,而顶级多模态模型平均成功率仅5%-40%...
原文链接
标题:虚假奖励竟能提升Qwen性能25%!
即使使用错误的奖励信号,Qwen的性能也能显著提升?华盛顿大学的博士生团队发现,使用Qwen模型(尤其是数学版本),对虚假奖励进行强化学习(RLVR),依然能让MATH-500的准确率提高约25%。团队实验表明,RLVR通过激活预训练中的推理能力提升性能,...
原文链接
首个视觉RL统一框架!推理感知两手抓,性能横扫MEGA-Bench
仅需一个强化学习(RL)框架,就能实现视觉任务大统一?现有RL对推理和感知任务只能二选一,但“大模型六小强”之一MiniMax表示:我全都要!
最新开源的V-Triune(视觉三重统一强化学习系统)框架,使视觉语言模型(VL...
原文链接
5月28日消息,腾讯云今日上线CloudBase AI ToolKit,推出国内首个面向智能编程的后端服务,该平台是国内首个适配主流AI编程工具的Serverless开发平台。随着AI写代码逐渐普及,如何让AI生成的代码稳定运行成为技术挑战。AI ToolKit致力于让AI成为开发者的得力助手,实现从代码编写到日志管理的全流程自动化,包括代码结构识别、资源配置、部署上线及故障修复等环节。目前,该工具已适配Cursor、CodeBuddy等主流AI编程工具,支持快速上手和运行。同时,CloudBase AI ToolKit已在GitHub和CNB开源仓库发布,提供多种配置文件供开发者下载使用。腾讯云强调,未来开发不仅追求效率,更需注重完整性,而这正是AI与云计算结合所能提供的答案。
原文链接
加载更多

暂无内容