今天看完国盛证券写的一篇文章《MCP与A2A助力,AI Agent进入互联时代》,正好也学习一下AI智能体里的MCP和A2A这些概念。

这篇文章的核心观点:

我们已经不满足使用AI进行“聊天”,而是想让大模型“下场干活儿”,AI Agent能够满足这个目标。

AI Agent已进入标准化协议推动的互联时代,MCP协议打通Agent与外部工具的"最后一公里",A2A协议则构建Agent间的通信基础设施。

AI Agent定义

AI Agent(AI智能体)是指具备环境感知、自主决策与行动能力的智能实体,能够通过大模型理解复杂需求,动态规划任务路径,调用工具执行操作,并在交互中持续优化策略。其本质是通过模拟人类认知过程实现“思考-行动-反馈”闭环的智能系统。

智能体的三大支柱

OpenAI研究员Lilian Weng提出“规划、记忆、工具使用”是Agent三大支柱。其实这里省略了Agent的大脑:大语言模型(LLM)。

1. 规划(Planning)

负责制定策略,将复杂任务拆解为子任务。通过ReAct、思维链(CoT)等框架优化决策。

2. 记忆(Memory)

相当于经验库。可分为短期记忆和长期记忆。

短期记忆可以存储对话历史,来维护当前任务上下文,比如DeepSeek-V3的上下文窗口(context window)支持 128K tokens。

长期记忆通过向量数据库存储结构化知识,结合RAG技术实现高精度检索。

3. 工具使用(Tool Use)

扩展智能体能力边界,调用外部API、搜索引擎、数据库等,弥补LLM的局限性。

MCP 协议:Agent与“外部数据和工具”的“一键”互联

2024 年 11 月, Anthropic公司(它的大模型产品叫 Claude)发布并开源 MCP 协议(Model-Context-Protocol),它旨在标准化外部数据与工具如何为模型提供上下文,像大模型的 USB-TypeC 接口,致力于降低大模型使用外部数据与工具的成本。

alt text

在MCP出现之前,大模型使用外部工具的成本较高,使用不同的API,都要撰写单独的代码、文档、身份验证方法、错误处理和维护方式,相当于开启这些服务需要不同的钥匙。

alt text

MCP采用JSON-RPC协议进行通信,采用客户端-服务器架构,客户端负责将用户请求转换为协议标准的请求,服务器则连接具体的数据源或工具(如数据库、API),执行请求并返回结果。

MCP支持在模型的上下文中嵌入指令、数据的执行逻辑,允许AI直接通过自然语言请求调用工具。

MCP内置OAuth 2.1认证、细粒度权限管理和数据加密机制,避免敏感信息泄露。

A2A:Agent之间互联

2025年4月9日,谷歌发布 Agent 与 Agent 之间通信协议 A2A,进一步完善了Agent 生态中的协议。

看上去两个协议好像没有竞争关系,但工具也可能被封装为Agent,从这个角度来看,如果A2A成功了,应该比MCP更简洁。

alt text

AI Agent的智能等级

效仿自动驾驶场景,也可以定义AI Agent的L0-L5等级的能力。

级别 自动驾驶 AI Agent能力描述
L0级 无自动化 无AI+工具(感知+行动)
L1级 驾驶辅助 基于规则的AI+工具(感知+行动)
L2级 部分自动化 基于模仿学习与强化学习的AI+工具(感知+行动)+推理&决策制定
L3级 有条件自动化 基于大模型的AI+工具(感知+行动)+推理与决策制定+记忆&反思
L4级 高度自动化 基于大模型的AI+工具(感知+行动)+推理与决策制定+记忆&反思+自主学习+泛化
L5级 完全自动化 基于大模型的AI+工具(感知+行动)+推理与决策制定+记忆&反思+自主学习+泛化+个性化(情绪+性格)+协作(多Agent)

现在的Dify等智能体开发平台,还需要人类定义工作流,将来更高级的Agent应该是“端到端”的,应该是人类输入对任务的描述,Agent自动规划、记忆、使用不同的工具来完成任务。

ANP:Agent互联

未来,或许所有的 Agent 相互之间应该都能够通信、可以自组织、自协商,构建比现有互联网更低成本、更高效率的协作网络,中国开发者社区也在构建 ANP(Agent Network Protocol)等 Agent 协议,旨在成为 Agent 互联网时代的 HTTP 协议。

alt text