025年8月6日15时28分,腾讯AI Lab传来重大消息,其开源了可复现的深度研究智能体,最大限度降低了外部依赖,为人工智能领域的发展注入了新的活力。深度研究智能体(Deep Research Agents)依托大语言模型(LLM)和视觉 - 语言模型(VLM)的强大能力,正在革新知识发现与问题解决的模式。然而,当前现有的开源智能体框架大多依赖付费工具,这极大地限制了其可复现性和普适性。腾讯AI Lab推出的Cognitive Kernel - Pro全开源、多模块、层次化的智能体框架,为深度研究智能体的开发与训练带来了突破性的解决方案。在GAIA基准全集上,Cognitive Kernel - Pro表现卓越,超越了开源免费框架SmolAgents,性能逼近依赖付费工具的智能体,显示出其卓越的综合能力。在GAIA - text上,训练的8B模型更是超越了WebDancer和WebSailor - 7B。相关论文还登上了当日HuggingFace热榜第一。此外,腾讯AI Lab还公开了Agent Foundation Model的训练配方,为社区提供了可复现的训练路径,相关技术报告及代码已在GitHub开源。全开源智能体框架的独特设计Cognitive Kernel - Pro以Python代码为动作空间,充分发挥现代LLM的推理和代码生成能力。其核心设计亮点颇多:模块化架构:采用两层多模块设计,包含主智能体和多个子智能体,如网页导航智能体、文件处理智能体等。主智能体负责任务分解和信息整合,子智能体专注特定任务,保证了模块的独立性和扩展性。状态管理与规划:通过“进度状态”机制,智能体能够记录已完成步骤、待办任务、历史经验和关键信息,大大提高了复杂任务的处理效率。标准化任务接口:主智能体与子智能体通过简洁的文本接口通信,子智能体以Python函数形式定义,输入任务字符串,输出格式化结果和日志,方便协作与调试。测试时优化:引入反思机制和投票机制,通过评估和优化动作轨迹,提升任务完成质量。反思机制让智能体审查和修正先前动作,投票机制通过多轮轨迹比较选择最优结果,增强了网页浏览等高随机性任务的稳定性。与许多依赖付费工具的现有智能体框架不同,Cognitive Kernel - Pro尽可能使用免费、开源工具,利用LLM的python代码生成能力和理解能力处理智能体任务,降低了使用成本,提高了广泛应用的可能性。创新训练方法提升数据质量Cognitive Kernel - Pro不仅有强大的框架,还设计了全面的训练流程,涵盖网页导航、文件处理、代码生成和推理等多个领域。其关键创新在于:高质量Web Agent数据构建:通过构造可验证的查询 - 答案对,结合中间过程提示和基于提示的拒绝采样,提升了训练数据的质量和相关性。Persona Hub数据增强:利用Persona Hub生成多样化的合成查询,结合跨系统验证,增强了训练数据的多样性和鲁棒性。推理数据优化:对现有数据集进行精细化处理,适配智能体任务格式,确保训练数据与实际应用场景一致。轨迹采样:以GPT - 4.1为骨干模型生成智能体轨迹,并通过相似度匹配进行拒绝采样,最大化训练数据的有效性。性能优势显著,引领开源新潮流Cognitive Kernel - Pro在网页信息检索、文件处理和复杂推理等任务中表现出色,在GAIA基准上超越SmolAgents,接近依赖付费工具的智能体框架。它强调LLM和VLM的内在能力,最大限度降低外部依赖,实现真正的全开源。与其他开源Agent基础模型相比,Cognitive Kernel - Pro在功能全面性和开源程度上优势明显,支持灵活切换免费API,提升了可访问性。


在GAIA - text基准测试中,Cognitive Kernel - Pro取得优异成绩,超越了WebDancer和WebSailor类似大小模型。这得益于其作为通用Agent框架,具备更好的文件Agent、Code Agent处理能力,以及在训练开源模型CK - Pro - 8B时使用更通用、丰富的Agent数据提升了基座模型能力。此外,其反思功能的消融实验表明,开源模型Qwen - 3 - 32B已能提供接近GPT - 4.1的反思效果,研究团队未来将关注把反思能力蒸馏到同一个Agent基座模型中。腾讯AI Lab此次开源深度研究智能体,为人工智能领域的研究和应用提供了新的思路和工具,有望推动整个行业朝着更加开源、可复现的方向发展。GitHub链接:https://github.com/Tencent/CognitiveKernel - ProArxiv链接:https://arxiv.org/pdf/2508.00414

点赞(0)

评论列表 共有 0 条评论

暂无评论
立即
投稿
发表
评论
返回
顶部