腾讯AI Lab开源Cognitive Kernel-Pro:全新开源智能体框架
深度研究智能体(Deep Research Agents)借助大语言模型(LLM)和视觉-语言模型(VLM)的强大能力,正在改变知识发现与问题解决的方式。然而,现有开源智能体框架多依赖付费工具,限制了其可复现性和普适性。为此,腾讯AI Lab推出了一款全开源、多模块、层次化的智能体框架——Cognitive Kernel-Pro,为深度研究智能体的开发提供了突破性解决方案。
在GAIA基准测试中,Cognitive Kernel-Pro表现出色,超越了开源免费框架SmolAgents,性能接近依赖付费工具的智能体。训练的8B模型在GAIA-text上甚至超越了WebDancer和WebSailor-7B,相关论文登上HuggingFace热榜第一。此外,腾讯AI Lab还公开了Agent Foundation Model的训练配方,提供可复现的路径,并将代码和技术报告开源至GitHub。
核心设计亮点
Cognitive Kernel-Pro以Python代码为动作空间,充分发挥LLM的推理和代码生成能力,其核心设计包括: 1. 模块化架构:主智能体负责任务分解与信息整合,子智能体(如网页导航、文件处理)专注特定任务,确保模块独立性与扩展性。 2. 状态管理与规划:通过“进度状态”机制,记录已完成步骤和关键信息,提升复杂任务处理效率。 3. 标准化任务接口:主智能体与子智能体通过简洁文本接口通信,便于协作与调试。 4. 测试时优化:引入反思机制和投票机制,评估并优化动作轨迹,显著增强任务完成质量。
创新训练方法
Cognitive Kernel-Pro设计了全面的训练流程,覆盖网页导航、文件处理、代码生成和推理等领域,关键创新包括: - 构建高质量Web Agent数据,结合中间过程提示和拒绝采样提升数据质量。 - 利用Persona Hub生成多样化合成查询,增强数据多样性与鲁棒性。 - 对现有数据集进行精细化处理,确保与实际应用场景一致。 - 使用GPT-4.1生成智能体轨迹,并通过相似度匹配优化训练数据有效性。
性能优势
Cognitive Kernel-Pro在网页检索、文件处理和复杂推理等任务中表现卓越,尤其在GAIA基准上超越SmolAgents,接近依赖付费工具的框架。相比Jina Reader、FireCrawl等付费工具驱动的框架,Cognitive Kernel-Pro最大限度降低外部依赖,强调LLM和VLM的内在能力,实现真正的全开源。
未来,研究团队计划将反思能力蒸馏到Agent基座模型中,进一步提升性能。
项目链接
GitHub:https://github.com/Tencent/CognitiveKernel-Pro
Arxiv:https://arxiv.org/pdf/2508.00414
.png)

-
2025-08-06 19:37:26
-
2025-08-06 19:37:05
-
2025-08-06 19:36:17