阿里推出了一款名为Data Science Assistant(简称DS Assistant)的创新工具,基于开源Agent框架Modelscope-Agent,旨在解决复杂数据科学问题,使科研新手也能轻松上手。DS Assistant能自动完成数据科学流程中的关键步骤,包括探索性数据分析(EDA)、数据预处理、特征工程、模型训练与评估,只需提供需求,其余皆由助手自动完成。
DS Assistant的背后,是阿里开源的Modelscope-Agent框架,具备以下特色: 1. 集成多源模型:通过vllm、ollama等工具接入主流开源模型,或直接调用模型API。 2. 知识库接入:利用RAG组件快速整合知识库资源。 3. 丰富工具生态:集成大量Modelscope社区模型与langchain工具,涵盖web浏览、文生图、代码解析等。 4. 无代码交互:允许用户无需编程即可创建Agent助理。
DS Assistant采用plan-and-execute框架,通过明确规划和执行步骤高效完成复杂任务,不同于传统ReAct框架的不足之处。该框架分为四个主要模块:DS Assistant作为大脑负责整体调度,Plan模块生成任务列表并进行拓扑排序,Execution模块执行具体任务,Memory管理模块记录执行细节。
以Kaggle的ICR – Identifying Age-Related Conditions任务为例,DS Assistant首先配置MetaGPT的工具,接收任务要求,生成任务列表,并依次执行。在数据探索阶段,遇到缺少numpy包的问题,DS Assistant反思并修正代码,最终成功输出数据探索结果。其他阶段如数据预处理、特征工程、模型训练与验证,DS Assistant均能高效完成,确保任务顺利进行。
实验结果显示,DS Assistant在规范化性能得分(NPS)、任务时间和消耗令牌数方面,相比开源SOTA模型表现出色。未来,DS Assistant将从提高任务执行成功率、增强对话交互性、支持批处理等多个方向进行优化,以满足不同用户需求。
总之,DS Assistant通过自动化流程,降低了数据科学门槛,不仅适合初学者快速了解数据处理方法,也为专业人士提供了灵活的实验平台,实现对数据的深层次理解。
.png)

-
2025-07-20 17:06:49
-
2025-07-20 16:05:44
-
2025-07-20 16:05:36