MCP与A2A助力，AI Agent进入互联时代

今天看完国盛证券写的一篇文章《MCP与A2A助力，AI Agent进入互联时代》，正好也学习一下AI智能体里的MCP和A2A这些概念。

这篇文章的核心观点：

我们已经不满足使用AI进行“聊天”，而是想让大模型“下场干活儿”，AI Agent能够满足这个目标。

AI Agent已进入标准化协议推动的互联时代，MCP协议打通Agent与外部工具的"最后一公里"，A2A协议则构建Agent间的通信基础设施。

AI Agent定义

AI Agent（AI智能体）是指具备环境感知、自主决策与行动能力的智能实体，能够通过大模型理解复杂需求，动态规划任务路径，调用工具执行操作，并在交互中持续优化策略。其本质是通过模拟人类认知过程实现“思考-行动-反馈”闭环的智能系统。

OpenAI研究员Lilian Weng提出“规划、记忆、工具使用”是Agent三大支柱。其实这里省略了Agent的大脑：大语言模型（LLM）。

1. 规划（Planning）

负责制定策略，将复杂任务拆解为子任务。通过ReAct、思维链（CoT）等框架优化决策。

2. 记忆（Memory）

相当于经验库。可分为短期记忆和长期记忆。

短期记忆可以存储对话历史，来维护当前任务上下文，比如DeepSeek-V3的上下文窗口（context window）支持 128K tokens。

长期记忆通过向量数据库存储结构化知识，结合RAG技术实现高精度检索。

3. 工具使用（Tool Use）

扩展智能体能力边界，调用外部API、搜索引擎、数据库等，弥补LLM的局限性。

2024 年 11 月， Anthropic公司（它的大模型产品叫 Claude）发布并开源 MCP 协议（Model-Context-Protocol），它旨在标准化外部数据与工具如何为模型提供上下文，像大模型的 USB-TypeC 接口，致力于降低大模型使用外部数据与工具的成本。

alt text

在MCP出现之前，大模型使用外部工具的成本较高，使用不同的API，都要撰写单独的代码、文档、身份验证方法、错误处理和维护方式，相当于开启这些服务需要不同的钥匙。

alt text

MCP采用JSON-RPC协议进行通信，采用客户端-服务器架构，客户端负责将用户请求转换为协议标准的请求，服务器则连接具体的数据源或工具（如数据库、API），执行请求并返回结果。

MCP支持在模型的上下文中嵌入指令、数据的执行逻辑，允许AI直接通过自然语言请求调用工具。

MCP内置OAuth 2.1认证、细粒度权限管理和数据加密机制，避免敏感信息泄露。

2025年4月9日，谷歌发布 Agent 与 Agent 之间通信协议 A2A，进一步完善了Agent 生态中的协议。

看上去两个协议好像没有竞争关系，但工具也可能被封装为Agent，从这个角度来看，如果A2A成功了，应该比MCP更简洁。

alt text

效仿自动驾驶场景，也可以定义AI Agent的L0-L5等级的能力。

级别	自动驾驶	AI Agent能力描述
L0级	无自动化	无AI+工具（感知+行动）
L1级	驾驶辅助	基于规则的AI+工具（感知+行动）
L2级	部分自动化	基于模仿学习与强化学习的AI+工具（感知+行动）+推理&决策制定
L3级	有条件自动化	基于大模型的AI+工具（感知+行动）+推理与决策制定+记忆&反思
L4级	高度自动化	基于大模型的AI+工具（感知+行动）+推理与决策制定+记忆&反思+自主学习+泛化
L5级	完全自动化	基于大模型的AI+工具（感知+行动）+推理与决策制定+记忆&反思+自主学习+泛化+个性化（情绪+性格）+协作（多Agent）

现在的Dify等智能体开发平台，还需要人类定义工作流，将来更高级的Agent应该是“端到端”的，应该是人类输入对任务的描述，Agent自动规划、记忆、使用不同的工具来完成任务。

未来，或许所有的 Agent 相互之间应该都能够通信、可以自组织、自协商，构建比现有互联网更低成本、更高效率的协作网络，中国开发者社区也在构建 ANP（Agent Network Protocol）等 Agent 协议，旨在成为 Agent 互联网时代的 HTTP 协议。

alt text