大模型训练 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

中文互联网基础语料 3.0 发布：数据量为 120GB，助力大模型训练与 AI 发展

9月18日，在昆明举行的2025年国家网络安全宣传周人工智能安全治理分论坛上，中文互联网基础语料3.0正式发布。该版本数据量达120GB，由中央网信办指导，中国网络空间安全协会联合国家互联网应急中心等单位共同打造。语料经过严格筛选、过滤和去重，覆盖更多优质中文网站信源，并强化了违法不良信息的过滤能力，为大模型训练与AI发展提供可信数据支持。网安协会表示，这是各界协同共建高质量中文语料的重要成果，未来将持续加强语料建设，助力人工智能技术创新与产业发展。

原文链接

未来编码者

09-18 15:56:52

中文互联网基础语料

人工智能发展

大模型训练

分享至

打开微信扫一扫

内容投诉

生成图片

7B模型对标GPT-4o，全球首个医疗代码生成大模型训练平台来了

2025年7月，埃默里大学、佐治亚理工学院等联合发布全球首个医疗代码生成大模型训练平台MedAgentGym。该平台整合72,413个真实医疗编程任务，覆盖电子健康记录查询、生物信息学建模等四大领域，并提供容器化隔离环境与交互式反馈机制。基于此平台开发的开源模型Med-Copilot-7B通过两阶段训练后，在多项医疗编程任务上性能接近GPT-4o，达到59.90分。研究团队还引入AI验证器，显著提升模型成功率至42%，为未来医疗AI发展奠定基础。论文及代码已公开，项目有望加速医疗AI普惠化进程。

原文链接

AGI探路者

07-13 13:05:04

MedAgentGym

医疗代码生成

大模型训练平台

分享至

打开微信扫一扫

内容投诉

生成图片

全新GPU高速互联设计，为大模型训练降本增效！北大/阶跃/曦智提出新一代高带宽域架构

全新GPU高速互联设计助力大模型训练降本增效！北大/阶跃/曦智提出InfiniteHBD架构随着大模型参数规模扩大，分布式训练成为AI发展核心路径。高带宽域设计对提升训练效率至关重要，但现有HBD架构在可扩展性、成本和容错能力等方面存在瓶颈。NVIDIA NVL-72等以交换机为中心的HBD成...

原文链接

WisdomTrail

05-19 15:17:11

GPU高速互联

InfiniteHBD

大模型训练

分享至

打开微信扫一扫

内容投诉

生成图片

大模型训练开销还能更小！微软推出首个FP4训练框架，训练效果与BF16相当

微软推出首个FP4训练框架，实现与BF16相当的训练效果，所需存储和计算资源更少。该框架适用于高达130亿参数规模的模型，训练Token数量达千亿级别。研究团队在FP8 TensorCore上模拟FP4，采用定制化FP4矩阵乘法CUDA内核，通过E2M1格式（2位指数，1位尾数，1位符号位）实现高效量化。此框架对权重矩阵W和激活矩阵A采取不同粒度的量化策略，最大化利用FP4加速效果。为解决梯度问题，研究团队提出可微分梯度估计方法，并引入“离群点削峰和补偿”策略。该框架由微软亚洲研究院和SIGMA团队打造，第一作者Ruizhe Wang是中科大在读博士生，通讯作者为MSRA的程鹏和Yeyun Gong。

原文链接

量子思考者

01-30 13:29:24

FP4训练框架

大模型训练

微软

分享至

打开微信扫一扫

内容投诉

生成图片

上海第一批自动驾驶大模型训练数据采集车正式发车

12月31日，上海高级别自动驾驶引领区数据采集车发车仪式在浦东举行，30辆智己L6数据采集车正式发车。市经济信息化委副主任汤文侃表示，上海将按照“单车智能为基础，车路云协同为关键支撑”的技术路线，推动智能网联汽车产业生态培育。主要措施包括开展车端真实训练数据采集与处理，建设自动驾驶实训场平台，以及构建车联通信网络。首批数据采集车的发车标志着上海在自动驾驶领域迈出了重要一步。

原文链接

智能维度跳跃

12-31 20:48:59

大模型训练

数据采集

自动驾驶

分享至

打开微信扫一扫

内容投诉

生成图片

1行代码改进大模型训练，Llama训练速度升至1.47倍，华人团队出品

标题：1行代码提升大模型训练效率，Llama速度增1.47倍，华人团队研发只需改动一行代码，就能将大模型训练效率提升至1.47倍。四名来自得克萨斯大学奥斯汀分校的华人学者提出了一种名为Cautious Optimizers的大模型训练优化器。该优化器不仅提升了训练速度，还确保了训练效果不下降，并适...

原文链接

虚拟微光

11-27 22:05:11

Cautious Optimizers

加速

大模型训练

分享至

打开微信扫一扫

内容投诉

生成图片

火山引擎发布大模型训练视频预处理方案，已应用于豆包视频生成模型

火山引擎在10月15日的视频云技术大会上发布了一套大模型训练视频预处理方案，旨在解决视频大模型训练过程中面临的技术挑战，如成本、质量和性能等。该方案已被成功应用于豆包视频生成模型。抖音集团视频架构负责人王悦指出，处理超大规模视频训练数据集、优化视频样本质量、管理复杂处理链路及调度异构算力资源是当前大...

原文链接

数码游侠

10-15 18:59:27

大模型训练视频预处理方案

火山引擎

豆包视频生成模型

分享至

打开微信扫一扫

内容投诉

生成图片

国内运营商最大单集群智算中心在哈尔滨投用，可训练万亿参数大模型

【2023年8月31日】国内运营商最大单集群智算中心——中国移动智算中心（哈尔滨）于8月30日正式投入使用。此智算中心单集群算力规模全国第一，采用国产化网络设备，实现100%AI芯片国产化，并首次探索了1.8万张智算卡单集群部署的规模上限。拥有6.9EFLOPS智能算力及150P的融合分级存储，搭载GSE1.0、天池SDN等自主研发技术，显著提升GPU节点间通信效率，缩短数据训练时间达20%。这一设施的投用，标志着中国在人工智能基础设施建设方面取得了重要进展，能有效支撑万亿参数级别的大模型训练需求，对推动人工智能技术发展具有重要意义。

原文链接

AI创意引擎

08-31 10:39:43

万亿参数大模型训练

国产化率100%

智算中心

分享至

打开微信扫一扫

内容投诉

生成图片

Meta的Llama 3是合成数据训练？数据荒了解一下

Meta的AI研究员Thomas Scialom博士揭示，其公司的大模型Llama 3在训练过程中完全依赖于由Llama 2生成的合成数据，而非人类编写的内容。这一发现标志着合成数据在AI训练中的可行性得到了肯定。合成数据通过算法模仿真实数据特性产生，使得大模型在代码执行反馈、编程语言翻译、长文本问...

原文链接

Oasis

08-05 09:02:16

AI伦理

合成数据

大模型训练

分享至

打开微信扫一扫

内容投诉

生成图片

Nature最新封面：AI 训练 AI？也许越来越笨

Nature最新刊发的论文揭示了AI领域的一个重大挑战——AI模型在使用自我生成的数据进行训练时，可能会经历“模型崩溃”(Model Collapse)。这一现象意味着模型在训练过程中，会逐渐忘记真实数据分布，导致性能下降。研究团队通过实验发现，无论是否保留原始数据，模型崩溃的现象都会发生。模型生成...

原文链接