综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
2026年2月,清华大学刘洋团队发布论文《DOCTOR-R1: Mastering Clinical Inquiry with Experiential Agentic Reinforcement Learning》,揭示了为何参数规模更大的医疗AI模型(如70B)在真实问诊中表现不如较小的模型(如8B)。研究表明,传统静态评测方式无法反映模型在动态临床场景中的能力,现有模型常因提问策略僵化、高风险信号反应迟钝等问题失效。DOCTOR-R1通过强化学习和部分可观测马尔可夫决策过程建模,在多轮问诊中展现出更优的提问策略与沟通能力,显著提升诊断准确性与安全性。研究强调真实临床能力需结合交互训练,并为医疗AI发展提供了新范式。
原文链接
正文:2026年2月,智谱AI公开GLM-5技术论文,全面解析其架构、训练方法及芯片适配能力。GLM-5引入DeepSeek同款稀疏注意力机制(DSA),大幅降低计算成本并提升长上下文处理能力,同时通过异步强化学习基础设施优化训练效率。此外,GLM-5完成与华为昇腾等国产芯片的全栈适配,引发国内外广泛关注。在多项评测中,GLM-5表现优异,尤其在SWE-bench Verified榜单上得分77.8%,成为开源模型中的新标杆。论文发布后,海外用户甚至将其作为教程学习,进一步验证中国AI技术实力。
原文链接
标题:腾讯混元 x MBZUAI 港中文新研究:Search-R2 重构搜索增强推理学习方式
正文:
大语言模型的能力提升长期依赖参数和数据规模的扩张,但在复杂任务中,这种方法逐渐显现出局限性。尤其是在多轮搜索与推理场景中,模型失败的原因往往不是推理能力不足,而是无法有效处理错误的传播。现有训练...
原文链接
标题:清华刘知远团队论文:强化学习能否教会大模型新能力?| ICLR 2026
正文:
随着大语言模型的规模和预训练强度不断提升,强化学习在后训练阶段的角色正发生变化。尽管它仍是提升推理和多步决策表现的关键技术,但越来越多的实验表明,强化学习的性能提升往往难以等同于“新能力的形成”。尤其是在 p...
原文链接
2026年2月5日,中金公司发布研报指出,全球大模型技术在推理、编程、Agentic及多模态能力上已取得显著进步,但在稳定性与幻觉率等方面仍有不足。展望未来,中金预计2026年大模型将在强化学习、模型记忆和上下文工程等领域实现更多突破,从短context生成迈向长思维链任务,从文本交互扩展至原生多模态应用,进一步接近通用人工智能(AGI)的长期目标。
原文链接
1月28日,腾讯混元团队宣布开源混元图像3.0图生图版本,并在LMArena榜单中位列第一梯队。原新加坡Sea AI Lab高级研究科学家庞天宇即将加入腾讯混元多模态部Exploration Center,负责强化学习算法探索。庞天宇为清华大学计算机系直博生,师从朱军教授,曾获微软学者奖学金等多项荣誉,在顶级会议发表多篇论文。腾讯混元系列大模型已在内外部广泛接入,衍生模型下载量超800万,成为全球热门开源模型之一。腾讯董事会主席马化腾表示,公司持续吸引AI人才并优化组织结构,元宝将推出“元宝派”AI社交玩法,融合腾讯视频、QQ音乐等内容,同时上线10亿现金红包激励活动,目标重现微信红包的辉煌时刻。
原文链接
2026年1月27日,Personal Intelligence公司Mindverse宣布完成超2000万美元Pre-A轮融资,由蚂蚁集团领投、红杉中国等联合投资。Mindverse成立于2023年10月,专注于个人专属模型(Personal Intelligence)研发,其试验性产品Macaron AI于2025年8月发布,面向个人生活场景。团队在LoRA强化学习领域取得突破,已实现万亿参数级训练能力,并搭建平台Mind Lab Toolkit供外部测试。目前,Macaron AI用户创建应用超30万个,运行28个LoRA模型,目标在2026年Q2为数十万用户提供定制化模型。创始人陈锴杰表示,个性化AI体验是未来方向。投资人认为,记忆与交互的结合将是AI入口竞争核心,期待Mindverse推动个性化规模化落地。
原文链接
8块钱跑通强化学习全流程,潞晨云重塑微调赛道:1名算法工程师=1支Infra团队
大模型竞争已从“暴力预训练”转向“后训练”战场。无论是OpenAI o1的推理突破,还是DeepSeek-R1通过强化学习(RL)实现的性能飞跃,都表明:模型能力不再单纯依赖算力堆砌,而是由精准微调和RL迭代决定。
然...
原文链接
2025年12月,Dwarkesh在其最新播客中总结了AI进展的现状与未来趋势。他指出,以强化学习为核心的“中训练”正成为大语言模型的重点突破方向,但这表明AGI仍遥远,因模型需依赖大量预置技能而非泛化能力。他认为,当前AI经济扩散滞后并非技术扩散问题,而是模型能力不足所致。此外,Dwarkesh提到,持续学习将是AGI后提升模型能力的主要驱动力,预计明年前沿团队将发布初步功能,但达到人类水平可能还需5到10年。他还强调,AI在特定任务上的表现常被高估,而真正的AGI需解决复杂智能和劳动的核心问题。评论区反馈补充了对AI错误模式不可预测性及强化学习局限性的讨论。
原文链接
标题:港中文 MMLab × 美团新研究:一个模型解决多种视觉推理任务
正文:
在大模型迈向通用视觉智能的趋势中,单一任务或模态的方法已面临瓶颈。现实中的视觉系统需完成问答、视频理解、目标定位、描述生成等多样化任务,这对跨任务和跨模态能力提出了更高要求。然而,现有方法多依赖任务专化模型,难以实现...
原文链接
加载更多
暂无内容