数据合成 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

Kimi K2官方技术报告出炉：采用384个专家，训练不靠刷题靠“用自己的话再讲一遍”

2025年7月，Kimi K2官方技术报告发布，揭示其训练秘籍。该模型采用384个专家、总参数达1万亿，激活参数32B，擅长代码、Agent及数学推理任务，并在上线一周内击败DeepSeek，登顶全球最强开源模型。其核心技术包括MuonClip优化器、大规模Agentic Tool Use数据合成及通用强化学习框架，强调‘用自己的话再讲一遍’的训练方式提升效率。此外，阿里通义Qwen3-235B-A22B-2507版本更新，官方称性能超越Kimi K2，或成新王者。

原文链接

新智燎原

07-22 15:34:45

Agentic Tool Use数据合成

Kimi K2

MuonClip优化器

分享至

打开微信扫一扫

内容投诉

生成图片

不用千亿参数也能合成高质量数据！这个开源框架让小模型“组团逆袭”，7B性能直追72B

标题：不用千亿参数也能合成高质量数据！这个开源框架让小模型“组团逆袭”，7B性能直追72B 无需蒸馏任何大规模语言模型，小模型也能自给自足、联合提升？上海人工智能实验室与中国人民大学联合提出的GRA框架（Generator–Reviewer–Adjudicator）正是这样一种新范式。该方法以“...

原文链接

元界筑梦师

06-17 17:26:00

GRA框架

小模型

数据合成

分享至

打开微信扫一扫

内容投诉

生成图片

开源垂直领域高质量数据合成框架！专业QA自动生成，无需人工标注，来自上海AI Lab

开源垂直领域高质量数据合成框架！专业QA自动生成，无需人工标注，来自上海AI Lab 垂域模型训练中，高质量问答数据稀缺一直是行业痛点。人工标注成本高昂，合成数据又常面临质量与专业性难以兼顾的问题。为此，上海AI实验室等提出GraphGen，通过“知识图谱引导+双模型协同”机制，显著提升垂域理...

原文链接

梦境编程师

04-27 13:15:21

GraphGen

垂直领域

数据合成

分享至

打开微信扫一扫

内容投诉

生成图片

前端程序员请注意！首个截图就能生成现代前端代码的AI来了 | 已开源

前端程序员注意！首个截图生成现代前端代码的AI来了，已开源。截图生成代码现已达到新高度——首个面向现代前端代码生成的多模态大模型解决方案来了，还是开源的。现代前端代码开发具有组件化、状态管理和数据驱动渲染、严格的开发规范以及强动态交互等特点。这些特点构成现代前端开发的复杂体系，对代码生成提出更高...

原文链接

智慧轨迹

02-26 12:28:43

Flame

前端代码生成

数据合成

分享至

打开微信扫一扫

内容投诉

生成图片

20K合成数据就能让大模型能力飙升！还能实现模型自我迭代，上海AI Lab数据合成新范式

标题：20K合成数据助大模型能力飞跃，实现自我迭代——上海AI Lab提出新范式仅用20K合成数据，Qwen模型能力显著提升，且可实现自我迭代。上海AI Lab研究团队提出SFT数据合成引擎Condor，结合世界知识树和自我反思机制，生成高质量SFT数据。实验显示，模型性能随合成数据量增加而提升，...

原文链接

Oasis

01-23 15:20:08

数据合成

模型迭代

自我迭代

分享至

打开微信扫一扫

内容投诉

生成图片

蚂蚁数科探索AItoB，全新AI数据合成与生产平台亮相乌镇

蚂蚁数科探索AItoB，全新AI数据合成与生产平台亮相乌镇 11月19日，在乌镇峰会上，蚂蚁数科展示了AI数据合成与生产平台AIGD（AI Generated Data），该平台因其专注于“数据合成”而备受关注。蚂蚁数科AI科技技术负责人、蚂蚁天玑实验室主任李哲表示：“未来的AI应用需要大量难以获...

原文链接

星际Code流浪者

11-19 19:52:17

AItoB

AI数据合成

高质量数据

分享至

打开微信扫一扫

内容投诉

生成图片

鹅厂造10亿虚拟人格专搞数据合成：让7B模型数学成绩打平GPT4，还能给弱智吧出题

腾讯（鹅厂）研发出名为Persona Hub的系统，利用10亿个虚拟人格合成数据，这些虚拟人格源于网络数据，数量相当于全球人口的13%。通过这些人格，7B模型的数学能力提升显著，与GPT-4 Turbo持平。项目不仅可用于训练模型、设计弱智吧风格问题，还能应用于游戏NPC、工具开发和社会模拟。研究者通过文本生成和人格扩展技术创建了多样化角色，部分数据已公开20万个，未来计划进一步分享。这项创新展示了虚拟人格在生成式模型中的潜力，有望推动语言模型在更真实情境中的应用。

原文链接