你用的那些 AI 工具,到底是什么关系?

写在前面

最近身边的业务同学普遍陷入一种新型焦虑:

“我知道 Claude Code,我也知道 Cursor,我也知道要用 Skill,但我搞不清楚它们是什么关系。我就像在一个没有地图的城市里乱走,知道这个街道叫什么,但不知道它通向哪里。”

这篇文章就是那张地图。

我不会给你讲技术原理,也不会推荐你”最好用的工具”——我只想帮你搞清楚这些东西分别是什么层次的东西,以及它们之间是如何配合工作的。

看完之后,你应该能清楚地说出:”哦,原来我在用的这些玩意儿,是这么回事。”


一、先建立一个框架:三层结构

整个 AI 编程/AI 工作 的工具生态,可以用三层来理解:

1
2
3
4
5
6
7
┌─────────────────────────────────────────┐
│ 第三层:增强层(Skill / MCP) │ ← 技能包、插件、外挂
├─────────────────────────────────────────┤
│ 第二层:宿主层(CLI / IDE) │ ← 你每天打开的那个东西
├─────────────────────────────────────────┤
│ 第一层:模型层(LLM) │ ← 真正的大脑
└─────────────────────────────────────────┘

这三层缺一不可,但它们是完全不同性质的东西。混淆它们,是大多数困惑的根源。


二、第一层:模型层(LLM)——真正的大脑

LLM(Large Language Model,大语言模型) 是整个生态的核心。它是真正在”思考”的部分。

你现在能叫得出名字的主流 LLM 大概是这些:

公司 模型系列 常见名字
Anthropic Claude 系列 Claude 3.5 Sonnet、Claude 3 Opus
OpenAI GPT / o 系列 GPT-4o、o3、o1
Google Gemini 系列 Gemini 2.0 Flash、Gemini Ultra
DeepSeek DeepSeek 系列 DeepSeek-V3、DeepSeek-R1
阿里 Qwen(通义)系列 Qwen2.5、QwQ
月之暗面 Kimi 系列 Moonshot-v1

关键理解:LLM 本身只是一个”大脑”,它不会主动打开文件、不会执行命令、也不会显示在你的屏幕上。它接受文字输入,返回文字输出,仅此而已。

一个很重要的区分:你花钱买的 API(比如 Claude API、OpenAI API),本质上就是在买访问这个大脑的权限。你发一段话给它,它回你一段话,按字数计费。

所以,LLM 是原材料,不是产品。


三、第二层:宿主层(CLI / IDE)——你操作 AI 的界面

大脑有了,但你没法直接跟大脑说话。你需要一个界面,也叫宿主(Host)

这一层有两种形态:

形态一:CLI(命令行工具)

CLI(Command Line Interface,命令行界面)是你在终端里打命令用的工具。

常见的 AI CLI 工具:

工具名 背后公司 底层模型
Claude Code Anthropic Claude 系列
Codex CLI OpenAI GPT / o 系列
Gemini CLI Google Gemini 系列
oh-my-opencode 社区 可配置(Claude/GPT 等)
Kimi CLI 月之暗面 Moonshot 系列

这类工具的特点是:你在终端里跟 AI 对话,AI 可以帮你读文件、写代码、执行命令。核心能力是操作文件系统和终端——这是它跟普通聊天框的本质区别。

形态二:IDE(集成开发环境)

IDE 是带图形界面的编辑器,AI 功能集成在里面。

常见的 AI IDE 工具:

工具名 形态 特点
Cursor 独立 IDE 基于 VS Code,深度 AI 集成
GitHub Copilot VS Code / JetBrains 插件 主要做代码补全和对话
Windsurf 独立 IDE 主打”Agentic”体验
Zed 独立 IDE 轻量,原生 AI 支持
Trae 独立 IDE(字节) 国内,面向中国开发者

CLI 和 IDE 的关系

很多人以为这两者是竞争关系,其实它们是不同使用场景下的同类工具

维度 CLI IDE
界面 纯文字终端 图形界面
适合谁 习惯命令行的工程师 所有人
能力边界 偏向自动化、批处理 偏向交互式编辑
可定制性 更高(脚本组合) 较低

本质上,CLI 和 IDE 都是”宿主”——它们负责把你的需求传给 LLM,再把 LLM 的输出呈现给你,同时提供文件读写、终端执行等能力。

一个容易混淆的点:底层用的 LLM 和宿主是分开的。Cursor 默认用 Claude,但你也可以配置成用 GPT-4。Claude Code 默认用 Claude,但理论上也能接其他模型。“我在用 Cursor” ≠ “我在用 Claude”,这是两回事。


四、第三层:增强层(Skill / MCP)——给 AI 装上工具箱

光有大脑和界面还不够。你希望 AI 不只是”说说话”,还能真正干事情——查数据库、调 API、执行特定的业务流程。

这就是第三层的价值:给 AI 扩展能力

Skill:给 AI 的”操作手册”

Skill(技能包) 本质上是一份写给 AI 的说明书,告诉它遇到某类任务时该怎么做、用什么脚本、遵循什么流程。

一个 Skill 通常长这样:

1
2
3
4
my-skill/
├── SKILL.md ← 核心:写给 AI 读的说明文档
├── scripts/ ← 可执行脚本(Python、Shell 等)
└── references/ ← 参考资料(API 文档、业务规则等)

SKILL.md 里写的是自然语言的指令,比如:

“当用户让你查询订单状态时,调用 scripts/query_order.py,参数是订单号,返回格式是 JSON。”

AI 读到这份说明书,就知道遇到”查订单”这类需求时该怎么做。

这就是 Skill 的本质:不是给人看的代码,而是给 AI 看的说明书

目前 Skill 有一套统一规范(agentskills.io),主流 CLI 工具——Claude Code、Codex、oh-my-opencode 等——都支持这套格式,写一份 Skill 可以跑在多个 CLI 上。

MCP:给 AI 的”标准接口”

MCP(Model Context Protocol) 是另一种扩展方式,但层次更低,更技术性。

如果说 Skill 是”操作手册”,那 MCP 是”标准插头”。

MCP 解决的问题是:AI 怎么连接外部系统(数据库、Web 服务、文件系统、各种 API)?每次都要从头集成太麻烦,于是 Anthropic 提出了 MCP 这个标准协议——任何外部系统,只要实现了 MCP 接口,AI 就能直接调用,不需要重复开发。

常见的 MCP Server 有:读文件的、查数据库的、调 GitHub 的、搜索网页的……

对业务人员的简单理解

  • MCP Server = 封装好的”工具”,技术同学负责开发和维护
  • AI 通过 MCP 调用这些工具,就像人类通过 App 访问各种服务
  • 你不需要知道 MCP 怎么实现,只需要知道”我们公司的某某系统已经接了 MCP,AI 可以直接用”

Skill 和 MCP 的区别

维度 Skill MCP
本质 给 AI 的说明书 + 脚本 标准化的工具接口协议
谁来写 任何人(Markdown + 脚本) 技术人员(实现协议)
灵活性 高,自然语言描述流程 中,需要按协议格式实现
适合场景 定义 AI 的工作流程 连接外部系统和数据源

五、把三层串起来:一个完整的例子

假设你是一个运营同学,想让 AI 帮你每天早上自动拉取前一天的 GMV 数据,然后生成一份简报发到飞书群。

这件事在三层结构里是这样运作的:

第一层(LLM):选用 Claude 3.5 Sonnet,它负责理解你的需求、撰写简报文字、判断数据异常。

第二层(宿主/CLI):你用 Claude Code 或 oh-my-opencode 作为宿主,它负责调度整个流程、执行脚本、管理对话。

第三层(增强)

  • 一个 MCP Server 连接你们公司的数据仓库(技术同学搭建),AI 可以通过它查 GMV 数据。
  • 一个 Skill 定义了”GMV 简报”的工作流程:先拉数据、再生成分析、最后调用飞书 API 发消息。

整个链路:你发出一条指令 → 宿主接收 → LLM 理解和规划 → 通过 Skill 的脚本拉取数据(MCP 提供数据库访问)→ LLM 生成文字 → 宿主执行飞书 API 发送简报

每一层做自己擅长的事,没有哪一层可以替代另一层。


六、常见的混淆和误区

误区一:”我在用 Cursor,我就是在用 Claude”

不一定。Cursor 是宿主,它可以接 Claude,也可以接 GPT-4,也可以接本地模型。工具 ≠ 模型

误区二:”Claude Code 和 Cursor 是竞争产品”

从某种角度看是,但它们属于不同形态。Cursor 是 IDE,带图形界面;Claude Code 是 CLI,在终端里用。你甚至可以同时用两者——在 Cursor 里做交互式编辑,在终端里用 Claude Code 做批量处理。

误区三:”Skill 是给工程师用的,我用不上”

错。Skill 的设计初衷就是让非工程师也能定义 AI 的工作方式。一个 Skill 的核心是一份 Markdown 文档,你只需要用自然语言写清楚”遇到 XX 任务,按照 YY 步骤去做”,AI 就能照着执行。会写文档,就能写 Skill。

误区四:”换了 LLM,一切都要重来”

不是。这正是三层结构的价值所在。你的 Skill 是写给 AI 看的说明书,不依赖特定 LLM;你用的宿主(如 oh-my-opencode)通常支持切换底层模型。上层的东西不会因为你换了大脑就失效

误区五:”MCP 和 Skill 是一回事”

不是。MCP 是技术底层,负责”AI 怎么连接外部系统”;Skill 是业务上层,负责”AI 遇到这类任务该怎么做”。一个 Skill 里可能会用到 MCP 提供的工具,但两者是不同层次的概念。


七、给业务人员的实操建议

如果你是一个业务人员,正在被这些概念搞晕,以下是一个简单的决策框架:

Step 1:先锁定你的宿主(CLI 或 IDE)

  • 如果你在用 Mac/Linux,且不怕命令行,试试 Claude Codeoh-my-opencode
  • 如果你想要图形界面,用 CursorTrae(国内访问更稳定)
  • 不确定?先装 Cursor,门槛最低

Step 2:不要纠结底层用哪个 LLM

宿主通常会帮你选一个默认模型(比如 Cursor 默认 Claude)。在你刚开始用的阶段,不需要研究模型差异,先跑起来。

Step 3:Skill 是你”训练 AI 理解你业务”的核心工具

当你发现某类任务 AI 经常做不到位,或者每次都要重复给它解释背景,这时候就值得写一个 Skill——把背景、流程、规范一次性写清楚,让 AI 永远记得。

Step 4:MCP 交给技术同学

你不需要关心 MCP 怎么实现。你只需要告诉技术同学”我希望 AI 能访问 XXX 系统的数据”,让他们帮你搭好 MCP Server。


总结

用一张图把三层关系固化在脑子里:

1
2
3
4
5
6
7
你的需求

第二层:宿主(Claude Code / Cursor / oh-my-opencode…)
↓ ↑
第一层:LLM(Claude / GPT / Gemini / Qwen…)

第三层:增强(Skill 定义流程 + MCP 连接系统)
  • LLM = 大脑,真正思考的部分,你通过 API 访问它
  • CLI / IDE = 你操作 AI 的界面,不同形态,本质相同
  • Skill = 给 AI 的操作手册,你写,AI 执行
  • MCP = 标准插头,让 AI 能连接外部系统

这四件东西,各司其职,层层叠加,组成了你每天在用的那些 AI 工具。

下次再看到一个新工具的名字,先问自己:它属于哪一层?——这一个问题,能帮你排除 80% 的困惑。