深入解析模型上下文协议 (MCP)：架构、流程与应用实践- Community

[ Content contribution] 深入解析模型上下文协议 (MCP)：架构、流程与应用实践

Technology Exchange 1517 views · 6 replies ·

科技语者

deepin

2025-08-06 10:59

Author

核心概念：

MCP 是一种设计模式或协议规范，旨在解决大型语言模型在复杂交互场景中管理和传递上下文信息的挑战。它并不是一个单一、官方的标准协议，而是描述了一种结构化、可扩展的方式来组织和处理模型交互所需的所有相关信息。

核心目标：

上下文结构化： 将对话历史、系统提示、工具调用结果、外部知识片段、用户意图、当前状态等分散的信息组织成一个统一、机器可读的结构。
状态管理： 明确记录和管理多轮对话或复杂任务中的当前状态（如当前执行步骤、已收集信息、待完成任务）。
信息传递： 在模型链、模型与工具、甚至不同模型之间高效、无损地传递上下文信息。
工具集成： 标准化模型调用外部工具（函数/API）的请求格式和工具执行结果的返回格式，并将其无缝嵌入上下文。
可扩展性与互操作性： 允许在上下文中添加新的信息类型或工具定义，促进不同系统组件之间的协作。

为什么需要 MCP？

传统上下文限制： 简单的“聊天记录”式上下文（如 [{"role": "user", "content": "..."}, {"role": "assistant", "content": "..."}]）在处理复杂任务、工具调用、多步骤推理时显得力不从心，信息混杂，难以精确追踪状态和工具结果。
模型协作需求： 在 Agent 架构或多模型协作（Orchestration）中，需要一种标准化的方式在模型/组件间传递丰富的信息和状态。
工具调用标准化： 需要统一的格式来定义工具、请求工具调用、返回工具结果。

MCP 的关键组成部分：

一个典型的 MCP 上下文结构可能包含以下部分（具体实现可能有所不同）：

messages (消息列表)： 传统的对话历史记录，包含用户输入、模型回复、系统提示等。这是基础部分。
state (状态对象)： 一个字典或 JSON 对象，用于存储和追踪当前任务或会话的状态。例如：
- current_step: 当前执行到任务流程的哪一步。
- collected_data: 用户已提供的信息（如姓名、订单号、问题细节）。
- pending_actions: 需要执行的下一个动作列表。
- context_variables: 自定义的变量（如用户ID、会话ID、当前时间）。
tools (工具定义列表 - 可选)： 描述模型可以调用的外部工具（函数/API）的列表。每个工具定义通常包含：
- name: 工具唯一标识符。
- description: 工具功能描述。
- parameters: 工具所需的参数及其类型、描述。
tool_calls / tool_results (工具调用与结果 - 动态)：
- tool_calls (模型输出)： 当模型决定调用工具时，它会在其响应中包含一个 tool_calls 字段，列出它想要调用的工具（name）及其参数（arguments）。
- tool_results (输入到下一轮上下文)： 执行工具后，外部系统需要将结果格式化并作为 tool_results 添加到下一轮请求的上下文中。每个结果通常包含：
  - tool_call_id: 关联对应的 tool_call。
  - name: 工具名（应与 tool_call 匹配）。
  - content / result: 工具执行返回的结果（可以是字符串、JSON 等）。

MCP 交互流程（流程图与详解）：

sequenceDiagram participant Client as 客户端/应用 participant Orchestrator as 编排器/Agent 核心 participant LLM as 大语言模型 participant Tool as 外部工具/API Note over Client, Tool: 初始化 Client->>Orchestrator: 发起请求 (用户输入 + 初始 MCP Context) activate Orchestrator loop 处理循环 (直到任务完成或需要用户输入) Orchestrator->>LLM: 调用模型 (包含完整的 MCP Context) activate LLM alt 模型生成文本回复 LLM-->>Orchestrator: 回复文本 (包含在 MCP messages 中) else 模型决定调用工具 LLM-->>Orchestrator: 回复 (包含 tool_calls) end deactivate LLM alt 有 tool_calls Orchestrator->>Tool: 执行工具调用 (根据 tool_calls) activate Tool Tool-->>Orchestrator: 返回工具执行结果 deactivate Tool Orchestrator->>Orchestrator: 更新 MCP Context:
1. 添加 tool_calls 到 messages
2. 添加 tool_results 到 context
3. 更新 state (如 current_step, collected_data) else 有文本回复 Orchestrator->>Orchestrator: 更新 MCP Context:
1. 添加模型回复到 messages
2. 更新 state end Note over Orchestrator: 检查任务状态 (state)
是否需要继续调用模型？
是否需要用户输入？ end alt 任务完成或需要用户输入 Orchestrator->>Client: 返回最终回复或请求更多信息 (包含更新后的 MCP Context) end deactivate Orchestrator

流程详解：

初始化请求： 客户端（如聊天界面、后台服务）向负责协调的组件（Orchestrator / Agent 核心）发起请求，提供用户的输入和初始的 MCP Context（可能包含初始系统提示、用户信息、空状态等）。
模型调用： Orchestrator 将当前的、完整的 MCP Context 发送给大语言模型 (LLM) 进行处理。这个 Context 包含了 messages, state, tools (如果需要)，以及之前任何轮次的 tool_results。
模型处理与响应： LLM 分析整个 Context：
- 生成文本回复： 如果 LLM 认为可以直接回答用户或推进对话，它会生成文本回复。这个回复会被添加到 messages 列表中（通常是 assistant 角色的消息）。
- 发起工具调用： 如果 LLM 判断需要调用外部工具（如查询数据库、进行计算、调用 API）来获取信息或执行操作，它会在其响应中包含一个或多个 tool_calls 对象。此时 LLM 不生成面向用户的文本回复。
处理工具调用： 如果响应包含 tool_calls：
- Orchestrator 解析 tool_calls，找到对应的工具定义。
- 调用实际的外部工具（Tool），并传入所需的参数。
- 等待工具执行并返回结果 (result)。
更新上下文： Orchestrator 负责更新 MCP Context：
- 将 LLM 的响应（无论是文本还是 tool_calls）作为一个新的 assistant 消息添加到 messages 中。
- 如果有 tool_calls：
  - 将 tool_results（包含 tool_call_id, name, 和工具返回的 content/result）添加到 Context 中（通常是作为一个独立的字段或附加到 state 里）。
  - 根据工具结果更新 state（例如，记录查询到的数据到 collected_data，设置 current_step 为下一步）。
状态检查与循环： Orchestrator 检查更新后的 state：
- 如果任务尚未完成且不需要新的用户输入（例如，有工具结果需要模型进一步处理，或者需要调用另一个工具），则带着更新后的 MCP Context 回到第 2 步，再次调用 LLM。
- 如果任务完成，或者需要用户提供更多信息才能继续，则跳出循环。
返回最终响应： Orchestrator 将最终的回复（可能是 LLM 生成的文本，也可能是整合了工具结果的响应）和最新的 MCP Context 返回给客户端。客户端保存这个 Context，用于下一次交互。

MCP 的优势：

强大的上下文管理： 清晰分离对话历史、状态变量、工具信息，避免信息混杂。
无缝工具集成： 标准化了工具调用和结果返回的流程，使模型能更容易、更可靠地使用外部能力。
支持复杂任务： 通过维护 state 和 tool_results，使得处理多步骤、有状态的任务（如订票、复杂查询、工作流自动化）成为可能。
促进模型协作： 标准化的 Context 格式使得在多个模型或组件之间传递信息和状态更加容易，构建复杂的 Agent 系统。
可追溯性： 完整的 Context 记录了所有决策依据（历史消息、工具结果、状态变迁），便于调试和分析。
灵活性： state 和自定义字段提供了极大的扩展空间来适应不同应用场景。

MCP 的应用场景：

AI Agents： Agent 的核心大脑（LLM）利用 MCP 来记忆、规划、调用工具、管理任务状态。
复杂对话系统： 需要维护大量用户信息、进行多轮澄清、调用多个服务的客服机器人或助手。
自动化工作流： 由 LLM 驱动，需要按步骤执行操作、处理条件分支、集成不同 API 的自动化任务。
多模型协作系统： 不同模型（如规划模型、执行模型、验证模型）通过共享和更新 MCP Context 来协同工作。
需要精确状态跟踪的应用： 如游戏 NPC、教学辅导系统、数据探索工具。

总结：

MCP (模型上下文协议) 是一种应对现代 LLM 应用复杂性的关键设计模式。它通过定义结构化、包含丰富状态和工具信息的上下文对象，为 LLM 提供了处理多轮对话、执行复杂任务、无缝集成外部工具所需的环境和记忆。其核心在于将传统的扁平对话历史扩展为一个包含 messages, state, tools, tool_calls, tool_results 等关键元素的动态数据结构，并通过清晰的流程（如流程图所示）来管理和更新这个上下文，最终实现更强大、更可靠、更智能的 AI 应用。虽然具体实现细节可能因框架而异，但其核心思想和组件已成为构建下一代 LLM 应用（尤其是 Agent）的基础。