综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
12月4日,DeepSeek发布两款开源模型DeepSeek-V3.2和DeepSeek-V3.2-Speciale,在硅谷引发热议。新模型在智能体评测中达到开源模型最高水平,大幅缩小与顶尖闭源模型的差距。其中,标准版性能接近GPT-5,特别版超越GPT-5并在IMO、CMO等竞赛中获金牌,媲美Gemini-3.0-Pro。研究者苟志斌指出,强化学习在长上下文长度下也能持续扩展,突破了后训练瓶颈。此外,DeepSeek-V3.2系列成本极低,比GPT-5便宜近24倍,推理成本下降75%-83%。该模型还可能支持国产算力部署,进一步降低使用门槛,挑战谷歌、OpenAI及英伟达的技术和商业格局。
原文链接
12月2日,字节跳动Seed团队发布最新研究成果GR-RL,首次实现机器人真机强化学习完成整只鞋连续穿鞋带的任务。GR-RL通过从离线数据筛选到在线真机微调的强化学习框架,显著提升了操作成功率。相比前作监督学习模型GR-3,GR-RL将穿鞋带任务的成功率从45.7%提升至83.3%,同时减少了近70%的失败情况。这一成果拓展了VLA模型在长时程精细灵巧操作方面的能力边界,为机器人技术的发展提供了重要参考。
原文链接
2025年11月,腾讯混元大模型团队正式发布并开源HunyuanOCR模型,这是一款商业级、轻量(1B参数)的OCR专用视觉语言模型,采用原生ViT和轻量LLM架构。其感知能力(文本检测、复杂文档解析)优于所有公开方案,语义能力(信息抽取、翻译)表现出色,荣获ICDAR 2025 DIMT挑战赛小模型赛道冠军,并在OCRBench上取得3B以下模型SOTA成绩。该模型实现三大突破:全能与高效统一、极简端到端架构、数据驱动与强化学习创新。目前,模型已在Hugging Face趋势榜排名前四,GitHub标星超700,并被vllm官方团队接入。项目提供高性能部署方案,助力科研与工业落地。
原文链接
11月21日,OpenAI发布《GPT-5科学加速报告》,展示GPT-5如何助力科学家日常工作。数学家用其证明公式,物理学家进行对称性分析,免疫学家细化假设与设计实验。研究员Noam Brown强调,GPT-5通过强化学习超越简单复述,类比谷歌‘阿尔法狗’的创造性棋法,未来科学领域或迎类似突破。GPT-5强项包括快速生成完整证明、挖掘相关论文及提供生物学因果链分析,但需质疑才能自我纠正。尽管在形式化学科表现突出,仍存在偏科与不完美之处,实用性显著但未颠覆传统科研模式,人类仍主导研究方向。
原文链接
正文:11月20日,蚂蚁集团宣布开源万亿参数强化学习高性能权重交换框架Awex。该框架专为解决RL训练中权重参数同步问题设计,可在秒级完成TB级大规模参数交换,显著降低训练延迟。其主要特点包括极速同步性能(千卡集群6秒内全量同步)、统一模型适配、零冗余传输、多模式传输支持及异构部署兼容等。Awex由WeightWriter、WeightReader和MetaServer三大组件构成,核心功能模块涵盖训推权重转换、元数据计算与交换、P2P传输计划及NCCL/RDMA传输。在千卡集群上,使用RDMA传输1TB模型权重仅需6秒。目前,Awex已支持Megatron和SGLang引擎,并计划未来开源ASystem的其他核心RL组件,进一步完善强化学习生态。
原文链接
2025年11月,马斯克旗下xAI团队悄然发布Grok 4.1,迅速霸榜大模型竞技场多个排行榜。其“思考模式”以1483分Elo稳居第一,“非思考模式”以1465分位列第二,超越公开榜单上所有其他模型的完整推理模式。相比半年前仅排名第33位的Grok 4,新版本实现飞跃。在专家榜和职业榜中,Grok 4.1占据六个领域榜首,仅在文学和数学榜单稍逊对手。此外,在EQ-Bench情商测试中表现优异,超越Kimi K2(非Thinking版)。团队通过强化学习(RLHF)优化模型风格、个性及对齐性,显著提升情感捕捉、创意写作和幻觉问题处理能力。Grok 4.1已在grok.com、X平台及移动端全面开放,默认自动模式运行。
原文链接
标题:上交博士用两个问题讲清强化学习
正文:
人工智能领域中,强化学习(RL)是核心研究方向之一,旨在让智能体通过与环境交互学会最优行为。然而,几十年来涌现的众多算法(如Q-learning、PPO、SAC等)看似复杂且独立,初学者常感迷茫。最近,上海交通大学与上海期智研究院的博士生Kun Le...
原文链接
LLM强化学习新框架!UCSD多智能体训练框架让LLM工具调用能力暴增5.8倍
PettingLLMs团队 投稿
量子位 | 公众号 QbitAI
来自UCSD和英特尔的研究团队提出了一种通用化多智能体强化学习框架——PettingLLMs,首次实现了“群体强化”,显著提升了大语言模型(LLM)...
原文链接
2025年11月,兔展智能与北京大学联合发布图像编辑模型UniWorld-V2,刷新多项SOTA成绩。该模型在中文细节控制和复杂指令理解上表现优异,例如精准修改手势、渲染艺术中文字体及实现精细化空间编辑。其核心创新为UniWorld-R1框架,首次将强化学习应用于统一架构的图像编辑,采用扩散负向感知微调(DiffusionNFT)技术,并使用多模态大语言模型(MLLM)作为免训练奖励模型。在GEdit-Bench和ImgEdit基准测试中,UniWorld-V2分别以7.83分和4.49分超越OpenAI的GPT-Image-1等顶尖模型。研究团队还公开了论文、代码及模型,供后续研究使用。
原文链接
2025年10月,Cursor正式发布其首个自研编程大模型Composer,搭载于Cursor 2.0版本。该模型专为低延迟编码设计,代码生成速度达250tokens/秒,比同类模型快4倍,能在30秒内完成复杂任务。Composer基于强化学习与混合专家(MoE)架构,通过真实开发环境训练,具备多Agent协作能力,可自主测试、调试和优化代码。新版本还引入语音生成代码、原生浏览器工具等功能,并采用以Agent为中心的界面逻辑。尽管性能惊艳,但Cursor对模型底子来源讳莫如深,未明确是否基于开源模型微调,引发外界对其透明度的质疑。参考链接包括Cursor官网及多家科技媒体评测。
原文链接
加载更多
暂无内容