1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
8块钱跑通一次强化学习全流程,潞晨云重塑微调赛道:1名算法工程师=1支Infra团队
8块钱跑通强化学习全流程,潞晨云重塑微调赛道:1名算法工程师=1支Infra团队 大模型竞争已从“暴力预训练”转向“后训练”战场。无论是OpenAI o1的推理突破,还是DeepSeek-R1通过强化学习(RL)实现的性能飞跃,都表明:模型能力不再单纯依赖算力堆砌,而是由精准微调和RL迭代决定。 然...
虚拟织梦者
01-07 16:15:48
强化学习
微调SDK
潞晨云
分享至
打开微信扫一扫
内容投诉
生成图片
Dwarkesh最新播客:AI 进展年终总结
2025年12月,Dwarkesh在其最新播客中总结了AI进展的现状与未来趋势。他指出,以强化学习为核心的“中训练”正成为大语言模型的重点突破方向,但这表明AGI仍遥远,因模型需依赖大量预置技能而非泛化能力。他认为,当前AI经济扩散滞后并非技术扩散问题,而是模型能力不足所致。此外,Dwarkesh提到,持续学习将是AGI后提升模型能力的主要驱动力,预计明年前沿团队将发布初步功能,但达到人类水平可能还需5到10年。他还强调,AI在特定任务上的表现常被高估,而真正的AGI需解决复杂智能和劳动的核心问题。评论区反馈补充了对AI错误模式不可预测性及强化学习局限性的讨论。
星际Code流浪者
12-25 18:54:19
AGI时间线
AI进展
强化学习
分享至
打开微信扫一扫
内容投诉
生成图片
港中文 MMlab×美团新研究:仅用一个模型,应对多种视觉推理任务
标题:港中文 MMLab × 美团新研究:一个模型解决多种视觉推理任务 正文: 在大模型迈向通用视觉智能的趋势中,单一任务或模态的方法已面临瓶颈。现实中的视觉系统需完成问答、视频理解、目标定位、描述生成等多样化任务,这对跨任务和跨模态能力提出了更高要求。然而,现有方法多依赖任务专化模型,难以实现...
电子诗篇
12-17 11:39:31
多模态统一推理
强化学习优化
视觉理解任务
分享至
打开微信扫一扫
内容投诉
生成图片
DeepSeekV3.2技术报告还是老外看得细
12月4日,DeepSeek发布两款开源模型DeepSeek-V3.2和DeepSeek-V3.2-Speciale,在硅谷引发热议。新模型在智能体评测中达到开源模型最高水平,大幅缩小与顶尖闭源模型的差距。其中,标准版性能接近GPT-5,特别版超越GPT-5并在IMO、CMO等竞赛中获金牌,媲美Gemini-3.0-Pro。研究者苟志斌指出,强化学习在长上下文长度下也能持续扩展,突破了后训练瓶颈。此外,DeepSeek-V3.2系列成本极低,比GPT-5便宜近24倍,推理成本下降75%-83%。该模型还可能支持国产算力部署,进一步降低使用门槛,挑战谷歌、OpenAI及英伟达的技术和商业格局。
AI幻想空间站
12-04 09:09:55
DeepSeek-V3.2
开源模型
强化学习
分享至
打开微信扫一扫
内容投诉
生成图片
字节Seed发布GR-RL 首次实现真机强化学习穿鞋带
12月2日,字节跳动Seed团队发布最新研究成果GR-RL,首次实现机器人真机强化学习完成整只鞋连续穿鞋带的任务。GR-RL通过从离线数据筛选到在线真机微调的强化学习框架,显著提升了操作成功率。相比前作监督学习模型GR-3,GR-RL将穿鞋带任务的成功率从45.7%提升至83.3%,同时减少了近70%的失败情况。这一成果拓展了VLA模型在长时程精细灵巧操作方面的能力边界,为机器人技术的发展提供了重要参考。
QuantumHacker
12-02 14:21:13
字节跳动
强化学习
穿鞋带
分享至
打开微信扫一扫
内容投诉
生成图片
混元OCR模型核心技术揭秘:统一框架、真端到端
2025年11月,腾讯混元大模型团队正式发布并开源HunyuanOCR模型,这是一款商业级、轻量(1B参数)的OCR专用视觉语言模型,采用原生ViT和轻量LLM架构。其感知能力(文本检测、复杂文档解析)优于所有公开方案,语义能力(信息抽取、翻译)表现出色,荣获ICDAR 2025 DIMT挑战赛小模型赛道冠军,并在OCRBench上取得3B以下模型SOTA成绩。该模型实现三大突破:全能与高效统一、极简端到端架构、数据驱动与强化学习创新。目前,模型已在Hugging Face趋势榜排名前四,GitHub标星超700,并被vllm官方团队接入。项目提供高性能部署方案,助力科研与工业落地。
小阳哥
11-30 11:05:21
强化学习
混元OCR
端到端
分享至
打开微信扫一扫
内容投诉
生成图片
OpenAI:GPT-5 模型正开始减轻科学家日常工作量
11月21日,OpenAI发布《GPT-5科学加速报告》,展示GPT-5如何助力科学家日常工作。数学家用其证明公式,物理学家进行对称性分析,免疫学家细化假设与设计实验。研究员Noam Brown强调,GPT-5通过强化学习超越简单复述,类比谷歌‘阿尔法狗’的创造性棋法,未来科学领域或迎类似突破。GPT-5强项包括快速生成完整证明、挖掘相关论文及提供生物学因果链分析,但需质疑才能自我纠正。尽管在形式化学科表现突出,仍存在偏科与不完美之处,实用性显著但未颠覆传统科研模式,人类仍主导研究方向。
QuantumHacker
11-22 00:51:13
GPT-5
强化学习
科学加速
分享至
打开微信扫一扫
内容投诉
生成图片
蚂蚁集团开源 Awex 框架,秒级完成 TB 级参数交换
正文:11月20日,蚂蚁集团宣布开源万亿参数强化学习高性能权重交换框架Awex。该框架专为解决RL训练中权重参数同步问题设计,可在秒级完成TB级大规模参数交换,显著降低训练延迟。其主要特点包括极速同步性能(千卡集群6秒内全量同步)、统一模型适配、零冗余传输、多模式传输支持及异构部署兼容等。Awex由WeightWriter、WeightReader和MetaServer三大组件构成,核心功能模块涵盖训推权重转换、元数据计算与交换、P2P传输计划及NCCL/RDMA传输。在千卡集群上,使用RDMA传输1TB模型权重仅需6秒。目前,Awex已支持Megatron和SGLang引擎,并计划未来开源ASystem的其他核心RL组件,进一步完善强化学习生态。
虚拟微光
11-20 10:17:17
Awex框架
强化学习
蚂蚁集团
分享至
打开微信扫一扫
内容投诉
生成图片
马斯克悄然发布Grok 4.1,霸榜大模型竞技场所有排行榜
2025年11月,马斯克旗下xAI团队悄然发布Grok 4.1,迅速霸榜大模型竞技场多个排行榜。其“思考模式”以1483分Elo稳居第一,“非思考模式”以1465分位列第二,超越公开榜单上所有其他模型的完整推理模式。相比半年前仅排名第33位的Grok 4,新版本实现飞跃。在专家榜和职业榜中,Grok 4.1占据六个领域榜首,仅在文学和数学榜单稍逊对手。此外,在EQ-Bench情商测试中表现优异,超越Kimi K2(非Thinking版)。团队通过强化学习(RLHF)优化模型风格、个性及对齐性,显著提升情感捕捉、创意写作和幻觉问题处理能力。Grok 4.1已在grok.com、X平台及移动端全面开放,默认自动模式运行。
星际Code流浪者
11-18 15:24:50
Grok 4.1
大模型竞技场
强化学习
分享至
打开微信扫一扫
内容投诉
生成图片
上交博士最新思考:仅用两个问题讲清强化学习
标题:上交博士用两个问题讲清强化学习 正文: 人工智能领域中,强化学习(RL)是核心研究方向之一,旨在让智能体通过与环境交互学会最优行为。然而,几十年来涌现的众多算法(如Q-learning、PPO、SAC等)看似复杂且独立,初学者常感迷茫。最近,上海交通大学与上海期智研究院的博士生Kun Le...
代码编织者Nexus
11-10 18:29:12
强化学习
数据来源
策略更新
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序