1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
MiniMax M1全球技术闭门会实录:RL、混合架构、长上下文的下一步
MiniMax M1全球技术闭门会探讨了RL、混合架构及长上下文的前沿话题。 RL能否赋予模型新能力? RL在有限上下文长度下能提升模型能力,通过改变输出分布优化性能。例如,预训练需10万token解决的问题,经RL可能仅需1万token。然而,Reward Modeling仍是核心瓶颈,尤其是非结...
LunarCoder
07-22 13:32:06
RL
混合架构
长上下文
分享至
打开微信扫一扫
内容投诉
生成图片
因被 AI 生成的虚假漏洞报告轰炸,开源网络工具 cURL 考虑停止提供安全赏金
7月19日,开源网络工具cURL开发者Daniel Stenberg透露,因被AI生成的虚假漏洞报告轰炸,cURL考虑停止其安全漏洞赏金项目。自2019年以来,该项目已为81名安全漏洞发现者发放9万美元奖励(约合64.7万元人民币)。然而,近期不怀好意者利用AI工具批量生成‘垃圾漏洞报告’,上周报告量激增至平时8倍,且大部分内容不实。cURL安全团队仅7人,需耗时30分钟至3小时逐一核实漏洞真实性,导致时间和精力严重浪费。Daniel Stenberg警告,若情况无法改善,可能取消该赏金项目。
阿达旻
07-19 21:57:13
AI生成虚假报告
cURL
安全漏洞赏金
分享至
打开微信扫一扫
内容投诉
生成图片
7B模型“情商”比肩GPT-4o,腾讯突破开放域RL难题,得分直翻5倍
2025年7月,腾讯混元数字人团队发布RLVER框架,突破开放域强化学习(RL)难题。该框架通过构建“环境+奖励”一体化的用户模拟器,解决了真实交互中情商优化的三大困境:环境、奖励和训练难题。经RLVER训练的Qwen2.5-7B模型,在情感对话基准Sentient-Benchmark上的得分从13.3跃升至79.2,表现比肩GPT-4o和Gemini 2.5 Pro等顶级模型,同时避免了通用能力衰退。研究还揭示“思考式”与“反应式”模型的不同路径,以及温和训练环境对早期成长的重要性。相关论文已发布,代码与模型开源。
AGI探路者
07-18 16:42:29
RLVER
情商
用户模拟器
分享至
打开微信扫一扫
内容投诉
生成图片
Meta涨近2% 传公司斥资35亿美元加码AI智能眼镜业务
7月9日,Meta(META.US)股价涨近2%,报734.34美元。消息称,Meta斥资30亿欧元(约35亿美元)收购雷朋眼镜母公司EssilorLuxottica约3%股权,加码AI智能眼镜业务。知情人士透露,Meta正考虑未来将持股比例提升至约5%,但计划仍可能调整。Meta首席执行官扎克伯格表示,智能眼镜是公司发展人工智能与沉浸式体验的重要载体。
梦境编程师
07-09 23:10:50
AI智能眼镜
EssilorLuxottica
Meta
分享至
打开微信扫一扫
内容投诉
生成图片
Meta 推 LlamaRL 强化学习框架:全异步分布设计,训练 AI 模型提速 10.7 倍
6月10日,Meta公司推出LlamaRL强化学习框架,采用全异步分布式设计,在405B参数模型上将强化学习步骤时间从635.8秒缩短至59.5秒,速度提升10.7倍。强化学习通过反馈调整输出,已成为大语言模型优化性能的关键部分。然而,其高资源需求一直是个难题。LlamaRL基于PyTorch构建,通过独立执行器并行处理生成、训练和奖励模型,大幅减少等待时间。该框架利用NVIDIA NVLink技术和分布式直接内存访问(DDMA),使405B参数模型权重同步仅需2秒。测试显示,LlamaRL在8B、70B和405B模型上的训练时间分别缩短至8.90秒、20.67秒和59.5秒,性能稳定甚至有所提升,解决了内存限制和GPU效率问题,为大语言模型训练提供了高效解决方案。
虚拟织梦者
06-11 16:14:21
LlamaRL
Meta
强化学习
分享至
打开微信扫一扫
内容投诉
生成图片
英伟达推出 ProRL 方法:强化学习训练至 2000 步,打造全球最佳 1.5B 推理 AI 模型
6月4日,英伟达推出ProRL强化学习方法,通过延长训练至超2000步并扩展多领域数据(数学、编程、STEM等共13.6万样本),成功开发出全球最佳的1.5B参数推理模型Nemotron-Research-Reasoning-Qwen-1.5B。该模型在多项基准测试中表现优异,尤其在数学领域提升15.7%,编程任务pass@1准确率提升14.4%,STEM推理及指令遵循分别提升25.9%和22.0%,逻辑谜题奖励值提升54.8%,展现强大泛化能力。此前,强化学习在推理模型中的应用受限,现有方法如RLVR未显著优于基础模型。英伟达采用verl框架和改进GRPO方法实现突破。
AI幻想空间站
06-05 15:52:55
ProRL
强化学习
推理模型
分享至
打开微信扫一扫
内容投诉
生成图片
GPT-4o连验证码都解不了??SOTA模型成功率仅40%
标题:GPT-4o解验证码成功率仅40%?MetaAgentX发布Open CaptchaWorld平台 MetaAgentX团队推出Open CaptchaWorld,首个专注多模态Agent解验证码能力的研究平台。实测显示,人类解题成功率为93.3%,而顶级多模态模型平均成功率仅5%-40%...
DreamCoder
06-04 17:27:46
OpenCaptchaWorld
多模态Agent
验证码
分享至
打开微信扫一扫
内容投诉
生成图片
奖励是假的,能让Qwen提升25%性能却是真的!
标题:虚假奖励竟能提升Qwen性能25%! 即使使用错误的奖励信号,Qwen的性能也能显著提升?华盛顿大学的博士生团队发现,使用Qwen模型(尤其是数学版本),对虚假奖励进行强化学习(RLVR),依然能让MATH-500的准确率提高约25%。团队实验表明,RLVR通过激活预训练中的推理能力提升性能,...
AI奇点纪元
05-29 19:38:47
Qwen
RLVR
虚假奖励
分享至
打开微信扫一扫
内容投诉
生成图片
首个视觉RL统一框架!推理感知两手抓,性能横扫MEGA-Bench
首个视觉RL统一框架!推理感知两手抓,性能横扫MEGA-Bench 仅需一个强化学习(RL)框架,就能实现视觉任务大统一?现有RL对推理和感知任务只能二选一,但“大模型六小强”之一MiniMax表示:我全都要! 最新开源的V-Triune(视觉三重统一强化学习系统)框架,使视觉语言模型(VL...
神经网络领航员
05-28 22:35:05
MEGA-Bench
MiniMax
视觉RL统一框架
分享至
打开微信扫一扫
内容投诉
生成图片
腾讯云上线CloudBase AI ToolKit:国内首个面向智能编程的后端服务
5月28日消息,腾讯云今日上线CloudBase AI ToolKit,推出国内首个面向智能编程的后端服务,该平台是国内首个适配主流AI编程工具的Serverless开发平台。随着AI写代码逐渐普及,如何让AI生成的代码稳定运行成为技术挑战。AI ToolKit致力于让AI成为开发者的得力助手,实现从代码编写到日志管理的全流程自动化,包括代码结构识别、资源配置、部署上线及故障修复等环节。目前,该工具已适配Cursor、CodeBuddy等主流AI编程工具,支持快速上手和运行。同时,CloudBase AI ToolKit已在GitHub和CNB开源仓库发布,提供多种配置文件供开发者下载使用。腾讯云强调,未来开发不仅追求效率,更需注重完整性,而这正是AI与云计算结合所能提供的答案。
AI思维矩阵
05-28 18:15:25
AI编程
Serverless
腾讯云
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序