
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
标题:AGI 暴论:强化学习的「GPT-3 时刻」还要等多久?
正文:
近日,AI 初创公司 Mechanize 的三位创始人提出一个大胆预测:强化学习(RL)或许将迎来它的“GPT-3 时刻”,但需要相当于数千至上万年的模型训练时间。他们认为,当前 RL 模型存在泛化能力差、难以适应新任务等问...
原文链接
奖励模型也能Scaling!上海AI Lab提出策略判别学习新范式
强化学习是AI迈向通用人工智能(AGI)的关键技术,但奖励模型的设计与扩展始终是瓶颈。当前,大语言模型通过数据和模型扩展不断提升能力,而奖励模型却因缺乏系统性预训练方法,难以随计算量增长持续提升。
上海AI Lab的研究团队提出了一...
原文链接
2025年上半年,AI Agent领域迎来快速发展,技术与应用层面均取得显著突破。DeepSeek打破OpenAI在推理模型领域的垄断,头部厂商如OpenAI、Anthropic、Google相继推出o3 Pro、Claude 4系列和Gemini 2.5 Pro等重磅模型。应用侧,OpenAI发布Operator和Deep Research,推动AI Agent赛道竞争加剧。大厂积极布局,Google计划推出Project Mariner,百度上线“心响”APP,阿里探索“心流”项目。然而,商业化路径和核心壁垒仍是行业待解难题。强化学习被视为Agent发展的关键,工具使用能力的提升助力其在编程等领域率先落地。专家认为,垂直领域Agent机会更大,ToC端长链条任务规划或成新突破口。
原文链接
4B小模型数学推理首超Claude 4,700步RL训练逼近235B性能 | 港大&字节Seed&复旦
香港大学NLP团队联合字节跳动Seed和复旦大学推出强化学习训练配方Polaris,通过仅700步RL训练,让4B参数量的小模型在数学推理任务上接近235B大模型的表现,并超越Cl...
原文链接
多模态模型学会“按需搜索”,少搜30%还更准!字节&NTU新研究优化多模态模型搜索策略
字节跳动与南洋理工大学(NTU)联合推出MMSearch-R1项目,通过强化学习训练多模态模型自主执行智能搜索。该研究首次尝试基于端到端强化学习的多模态模型训练,使模型能够判断何时搜索、搜索什么以及如何处...
原文链接
正文:2025年7月,CMU研究团队发布论文指出,训练大语言模型的数学能力可能对其通用领域表现产生负面影响。研究评估了20多个模型在数学推理、其他推理任务及非推理任务上的表现,发现采用监督微调(SFT)的模型常出现负迁移,尤其在非推理任务上表现更差;而强化学习(RL)训练的模型则展现出更强的迁移能力与泛化性。通过PCA分析和Token分布偏移实验,研究进一步表明RL微调对模型原有知识的保留更优,同时提升了特定领域的逻辑能力。研究认为,强化学习可能是实现可迁移推理的关键。论文已发布于arXiv。
原文链接
标题:性能提升84%-166%,L-Zero通过强化学习实现大模型自主进化 | 已开源
招商局狮子山人工智能实验室最新研究提出了一种基于可验证奖励的强化学习(RLVR)的新方法,使大语言模型具备自主探索、验证与记忆的能力,真正实现“自学”!
当前LLM智能体(Agent)高度依赖提示词工程和复杂...
原文链接
标题:我不给人做产品,给Agent做
曲凯问雷磊,Agent热潮由Manus带动,下一个热点可能在哪里?雷磊认为是Agent Infra。他提到,未来Agent数量会大幅增加,成为数字员工,需为它们重构互联网基础设施。
Agent与人类协作方式不同。交互上,人类依赖视觉,而Agent可通过文...
原文链接
6月23日,月之暗面(Moonshot AI)推出首款自主强化学习Agent产品Kimi-Researcher,并开启小范围灰度测试。该产品基于端到端自主强化学习技术开发,在HLE测试中表现突出,性能超越Claude 4 Opus、Gemini 2.5 Pro及OpenAI Deep Research,与Gemini-Pro的Deep Research Agent持平。Kimi-Researcher具备高度自主性,无需复杂提示词或预设流程,可独立完成任务规划与执行,同时有效减少幻觉问题,确保研究严谨性。其核心优势在于动态环境下的自主决策能力,包括信息权衡、任务节点切换和中间信息筛选。月之暗面计划未来逐步开源该产品的基础预训练模型及强化学习优化版本,推动相关领域发展。
原文链接
标题:超级智能之路:Meta研究员质疑OpenAI路径
超级智能指超越AGI、通用能力超过人类的更高维度AI发展方向。Meta等巨头追逐这一目标,但其实现路径备受争议。
OpenAI CEO Sam Altman曾表示,构建超级智能是一个工程问题,而非科学难题。然而,Meta AI研究员Ja...
原文链接
加载更多

暂无内容