LLM能替代数据科学家了?DeepAnalyze帮你告别手动分析数据
你是否为复杂文件和海量数据而头疼?是否希望自动挖掘出有价值的信息?最近,人大与清华的研究团队推出了一款名为 DeepAnalyze 的工具——你的专属“数据科学家”。只需一个指令,它便能自动化完成数据分析、建模、可视化等任务,甚至生成研究报告。
DeepAnalyze 是首个面向数据科学的 Agentic LLM,无需预设工作流,仅凭一个大模型即可自主完成多种复杂任务。其论文、代码、模型和数据已开源,目前在 GitHub 上获得 1.1K+ 星标。
DeepAnalyze 的核心能力
DeepAnalyze 能在真实环境中学习并优化操作,完成从数据准备到洞察的全流程任务。当前的数据智能体通常依赖人工设计的工作流,难以实现完全自主。而 DeepAnalyze 提出了两项创新方法,突破了这一限制:
-
课程学习式 Agentic 训练
模拟人类数据科学家的学习路径,从简单到复杂逐步训练模型。先微调基础能力(如代码生成、逻辑推理),再通过真实任务环境提升多能力协作水平,避免因任务过于复杂导致训练失败。 -
面向数据的轨迹合成
自动生成 50 万条数据科学推理与交互轨迹,为模型提供示范和引导。包括推理轨迹合成(基于现有任务构建完整推理路径)和交互轨迹合成(通过多智能体系统模拟真实环境交互)。
支持深度研究与报告生成
DeepAnalyze 不仅擅长常规数据分析,还能生成具备分析师水准的研究报告。相比现有的闭源 LLM,其内容深度和结构更胜一筹。
团队背景
DeepAnalyze 由中国人民大学信息学院 RUC-DataLab 团队开发,负责人是范举教授。团队专注于数据技术与人工智能的融合,致力于打造智能化数据系统。主要研究方向包括数据库智能化(AI4DB)、数据技术支持 AI 系统(DB4AI)以及数智融合的新型数据科学系统(AI4DS)。
项目资源:
论文:https://arxiv.org/pdf/2510.16872
代码:https://github.com/ruc-datalab/DeepAnalyze
模型:https://huggingface.co/RUC-DataLab/DeepAnalyze-8B
数据:https://huggingface.co/datasets/RUC-DataLab/DataScience-Instruct-500K
更多示例:https://ruc-deepanalyze.github.io/
-
2025-12-07 18:40:26 -
2025-12-07 18:39:34 -
2025-12-07 16:37:13