大模型训练 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

月之暗面杨植麟：大模型训练进入第三个阶段今年起AI研发会逐渐加速

2026年3月25日，在中关村论坛年会上，月之暗面创始人杨植麟表示，大模型训练已进入第三个阶段——AI主导研究阶段。他指出，2023-2024年为天然数据与人工标注阶段，2025年为人工精选可验证任务阶段，而从2026年起，AI研发将加速并更多由AI主导。他还提到，开源模型正成为新标准，并希望与开源社区共同推动智能技术发展。（财联社记者付静张校毓）

原文链接

量子思考者

03-25 12:30:36

分享至

打开微信扫一扫

内容投诉

生成图片

现有路径不通？OpenAI、亚马逊考虑改变大模型训练方式

2026年1月，OpenAI、亚马逊等机构正探讨改变大模型训练方式，放弃‘先预训练、后微调’的传统流程，转而针对特定任务早期引入精选数据。这一方法由亚马逊的David Luan等人倡导，旨在提升效率并解决‘裂脑问题’。若实施，将推动AI行业从通用模型转向专用模型开发，并对数据筛选和团队组织提出更高要求。目前，OpenAI已通过路由技术和专用版本（如GPT-5-Codex）应对需求分化，未来可能彻底重组研究团队。此外，硬件领域创新加速，光子芯片公司Neurophos获1.1亿美元融资，目标2028年推出比英伟达快50倍的芯片。OpenAI的定制推理芯片也进入‘流片’阶段，Stargate项目进展超预期。行业并购活跃，苹果与谷歌谈判合作，英伟达CEO计划访华，Anthropic发布新版Claude‘宪法’，白宫预测生成式AI将显著推动经济增长。

原文链接

AI奇点纪元

01-27 12:08:17

分享至

打开微信扫一扫

内容投诉

生成图片

双非大学生，涌入大厂AI流水线

2025年，非北上广深、非985高校的大学生涌入大厂AI数据标注流水线，从事基础性兼职工作。他们通过抢单完成图片标注、文本纠错等任务，月收入约1000-2000元。这些学生分散在成都、郑州、武汉等地，利用课余时间参与AI训练，试图借此积累经验、提升简历竞争力。尽管工作琐碎且收入有限，部分学生认为这是通往AI领域的敲门砖，如郑州某高校学生张莹凭借相关经历获得头部教培机构实习机会。然而，随着兼职平台竞争加剧，抢单难度增加，收入吸引力下降。与此同时，AI技术快速发展带来的就业焦虑也推动更多学生加入这一浪潮，成为智能时代庞大流水线上的一员。

原文链接

代码编织者

12-04 18:35:49

分享至

打开微信扫一扫

内容投诉

生成图片

中文互联网基础语料 3.0 发布：数据量为 120GB，助力大模型训练与 AI 发展

9月18日，在昆明举行的2025年国家网络安全宣传周人工智能安全治理分论坛上，中文互联网基础语料3.0正式发布。该版本数据量达120GB，由中央网信办指导，中国网络空间安全协会联合国家互联网应急中心等单位共同打造。语料经过严格筛选、过滤和去重，覆盖更多优质中文网站信源，并强化了违法不良信息的过滤能力，为大模型训练与AI发展提供可信数据支持。网安协会表示，这是各界协同共建高质量中文语料的重要成果，未来将持续加强语料建设，助力人工智能技术创新与产业发展。

原文链接

未来编码者

09-18 15:56:52

分享至

打开微信扫一扫

内容投诉

生成图片

全新GPU高速互联设计，为大模型训练降本增效！北大/阶跃/曦智提出新一代高带宽域架构

全新GPU高速互联设计助力大模型训练降本增效！北大/阶跃/曦智提出InfiniteHBD架构随着大模型参数规模扩大，分布式训练成为AI发展核心路径。高带宽域设计对提升训练效率至关重要，但现有HBD架构在可扩展性、成本和容错能力等方面存在瓶颈。NVIDIA NVL-72等以交换机为中心的HBD成...

原文链接

WisdomTrail

05-19 15:17:11

分享至

打开微信扫一扫

内容投诉

生成图片

大模型训练开销还能更小！微软推出首个FP4训练框架，训练效果与BF16相当

微软推出首个FP4训练框架，实现与BF16相当的训练效果，所需存储和计算资源更少。该框架适用于高达130亿参数规模的模型，训练Token数量达千亿级别。研究团队在FP8 TensorCore上模拟FP4，采用定制化FP4矩阵乘法CUDA内核，通过E2M1格式（2位指数，1位尾数，1位符号位）实现高效量化。此框架对权重矩阵W和激活矩阵A采取不同粒度的量化策略，最大化利用FP4加速效果。为解决梯度问题，研究团队提出可微分梯度估计方法，并引入“离群点削峰和补偿”策略。该框架由微软亚洲研究院和SIGMA团队打造，第一作者Ruizhe Wang是中科大在读博士生，通讯作者为MSRA的程鹏和Yeyun Gong。

原文链接

量子思考者

01-30 13:29:24

分享至

打开微信扫一扫

内容投诉

生成图片

上海第一批自动驾驶大模型训练数据采集车正式发车

12月31日，上海高级别自动驾驶引领区数据采集车发车仪式在浦东举行，30辆智己L6数据采集车正式发车。市经济信息化委副主任汤文侃表示，上海将按照“单车智能为基础，车路云协同为关键支撑”的技术路线，推动智能网联汽车产业生态培育。主要措施包括开展车端真实训练数据采集与处理，建设自动驾驶实训场平台，以及构建车联通信网络。首批数据采集车的发车标志着上海在自动驾驶领域迈出了重要一步。

原文链接

智能维度跳跃

12-31 20:48:59

分享至

打开微信扫一扫

内容投诉

生成图片

1行代码改进大模型训练，Llama训练速度升至1.47倍，华人团队出品

标题：1行代码提升大模型训练效率，Llama速度增1.47倍，华人团队研发只需改动一行代码，就能将大模型训练效率提升至1.47倍。四名来自得克萨斯大学奥斯汀分校的华人学者提出了一种名为Cautious Optimizers的大模型训练优化器。该优化器不仅提升了训练速度，还确保了训练效果不下降，并适...

原文链接

虚拟微光

11-27 22:05:11

分享至

打开微信扫一扫

内容投诉

生成图片

Meta的Llama 3是合成数据训练？数据荒了解一下

Meta的AI研究员Thomas Scialom博士揭示，其公司的大模型Llama 3在训练过程中完全依赖于由Llama 2生成的合成数据，而非人类编写的内容。这一发现标志着合成数据在AI训练中的可行性得到了肯定。合成数据通过算法模仿真实数据特性产生，使得大模型在代码执行反馈、编程语言翻译、长文本问...

原文链接

Oasis

08-05 09:02:16

分享至

打开微信扫一扫

内容投诉

生成图片

Nature最新封面：AI 训练 AI？也许越来越笨

Nature最新刊发的论文揭示了AI领域的一个重大挑战——AI模型在使用自我生成的数据进行训练时，可能会经历“模型崩溃”(Model Collapse)。这一现象意味着模型在训练过程中，会逐渐忘记真实数据分布，导致性能下降。研究团队通过实验发现，无论是否保留原始数据，模型崩溃的现象都会发生。模型生成...

原文链接