你用的那些 AI 工具,到底是什么关系?
写在前面
最近身边的业务同学普遍陷入一种新型焦虑:
“我知道 Claude Code,我也知道 Cursor,我也知道要用 Skill,但我搞不清楚它们是什么关系。我就像在一个没有地图的城市里乱走,知道这个街道叫什么,但不知道它通向哪里。”
这篇文章就是那张地图。
我不会给你讲技术原理,也不会推荐你”最好用的工具”——我只想帮你搞清楚这些东西分别是什么层次的东西,以及它们之间是如何配合工作的。
看完之后,你应该能清楚地说出:”哦,原来我在用的这些玩意儿,是这么回事。”
一、先建立一个框架:三层结构
整个 AI 编程/AI 工作 的工具生态,可以用三层来理解:
1 | ┌─────────────────────────────────────────┐ |
这三层缺一不可,但它们是完全不同性质的东西。混淆它们,是大多数困惑的根源。
二、第一层:模型层(LLM)——真正的大脑
LLM(Large Language Model,大语言模型) 是整个生态的核心。它是真正在”思考”的部分。
你现在能叫得出名字的主流 LLM 大概是这些:
| 公司 | 模型系列 | 常见名字 |
|---|---|---|
| Anthropic | Claude 系列 | Claude 3.5 Sonnet、Claude 3 Opus |
| OpenAI | GPT / o 系列 | GPT-4o、o3、o1 |
| Gemini 系列 | Gemini 2.0 Flash、Gemini Ultra | |
| DeepSeek | DeepSeek 系列 | DeepSeek-V3、DeepSeek-R1 |
| 阿里 | Qwen(通义)系列 | Qwen2.5、QwQ |
| 月之暗面 | Kimi 系列 | Moonshot-v1 |
关键理解:LLM 本身只是一个”大脑”,它不会主动打开文件、不会执行命令、也不会显示在你的屏幕上。它接受文字输入,返回文字输出,仅此而已。
一个很重要的区分:你花钱买的 API(比如 Claude API、OpenAI API),本质上就是在买访问这个大脑的权限。你发一段话给它,它回你一段话,按字数计费。
所以,LLM 是原材料,不是产品。
三、第二层:宿主层(CLI / IDE)——你操作 AI 的界面
大脑有了,但你没法直接跟大脑说话。你需要一个界面,也叫宿主(Host)。
这一层有两种形态:
形态一:CLI(命令行工具)
CLI(Command Line Interface,命令行界面)是你在终端里打命令用的工具。
常见的 AI CLI 工具:
| 工具名 | 背后公司 | 底层模型 |
|---|---|---|
| Claude Code | Anthropic | Claude 系列 |
| Codex CLI | OpenAI | GPT / o 系列 |
| Gemini CLI | Gemini 系列 | |
| oh-my-opencode | 社区 | 可配置(Claude/GPT 等) |
| Kimi CLI | 月之暗面 | Moonshot 系列 |
这类工具的特点是:你在终端里跟 AI 对话,AI 可以帮你读文件、写代码、执行命令。核心能力是操作文件系统和终端——这是它跟普通聊天框的本质区别。
形态二:IDE(集成开发环境)
IDE 是带图形界面的编辑器,AI 功能集成在里面。
常见的 AI IDE 工具:
| 工具名 | 形态 | 特点 |
|---|---|---|
| Cursor | 独立 IDE | 基于 VS Code,深度 AI 集成 |
| GitHub Copilot | VS Code / JetBrains 插件 | 主要做代码补全和对话 |
| Windsurf | 独立 IDE | 主打”Agentic”体验 |
| Zed | 独立 IDE | 轻量,原生 AI 支持 |
| Trae | 独立 IDE(字节) | 国内,面向中国开发者 |
CLI 和 IDE 的关系
很多人以为这两者是竞争关系,其实它们是不同使用场景下的同类工具。
| 维度 | CLI | IDE |
|---|---|---|
| 界面 | 纯文字终端 | 图形界面 |
| 适合谁 | 习惯命令行的工程师 | 所有人 |
| 能力边界 | 偏向自动化、批处理 | 偏向交互式编辑 |
| 可定制性 | 更高(脚本组合) | 较低 |
本质上,CLI 和 IDE 都是”宿主”——它们负责把你的需求传给 LLM,再把 LLM 的输出呈现给你,同时提供文件读写、终端执行等能力。
一个容易混淆的点:底层用的 LLM 和宿主是分开的。Cursor 默认用 Claude,但你也可以配置成用 GPT-4。Claude Code 默认用 Claude,但理论上也能接其他模型。“我在用 Cursor” ≠ “我在用 Claude”,这是两回事。
四、第三层:增强层(Skill / MCP)——给 AI 装上工具箱
光有大脑和界面还不够。你希望 AI 不只是”说说话”,还能真正干事情——查数据库、调 API、执行特定的业务流程。
这就是第三层的价值:给 AI 扩展能力。
Skill:给 AI 的”操作手册”
Skill(技能包) 本质上是一份写给 AI 的说明书,告诉它遇到某类任务时该怎么做、用什么脚本、遵循什么流程。
一个 Skill 通常长这样:
1 | my-skill/ |
SKILL.md 里写的是自然语言的指令,比如:
“当用户让你查询订单状态时,调用
scripts/query_order.py,参数是订单号,返回格式是 JSON。”
AI 读到这份说明书,就知道遇到”查订单”这类需求时该怎么做。
这就是 Skill 的本质:不是给人看的代码,而是给 AI 看的说明书。
目前 Skill 有一套统一规范(agentskills.io),主流 CLI 工具——Claude Code、Codex、oh-my-opencode 等——都支持这套格式,写一份 Skill 可以跑在多个 CLI 上。
MCP:给 AI 的”标准接口”
MCP(Model Context Protocol) 是另一种扩展方式,但层次更低,更技术性。
如果说 Skill 是”操作手册”,那 MCP 是”标准插头”。
MCP 解决的问题是:AI 怎么连接外部系统(数据库、Web 服务、文件系统、各种 API)?每次都要从头集成太麻烦,于是 Anthropic 提出了 MCP 这个标准协议——任何外部系统,只要实现了 MCP 接口,AI 就能直接调用,不需要重复开发。
常见的 MCP Server 有:读文件的、查数据库的、调 GitHub 的、搜索网页的……
对业务人员的简单理解:
- MCP Server = 封装好的”工具”,技术同学负责开发和维护
- AI 通过 MCP 调用这些工具,就像人类通过 App 访问各种服务
- 你不需要知道 MCP 怎么实现,只需要知道”我们公司的某某系统已经接了 MCP,AI 可以直接用”
Skill 和 MCP 的区别
| 维度 | Skill | MCP |
|---|---|---|
| 本质 | 给 AI 的说明书 + 脚本 | 标准化的工具接口协议 |
| 谁来写 | 任何人(Markdown + 脚本) | 技术人员(实现协议) |
| 灵活性 | 高,自然语言描述流程 | 中,需要按协议格式实现 |
| 适合场景 | 定义 AI 的工作流程 | 连接外部系统和数据源 |
五、把三层串起来:一个完整的例子
假设你是一个运营同学,想让 AI 帮你每天早上自动拉取前一天的 GMV 数据,然后生成一份简报发到飞书群。
这件事在三层结构里是这样运作的:
第一层(LLM):选用 Claude 3.5 Sonnet,它负责理解你的需求、撰写简报文字、判断数据异常。
第二层(宿主/CLI):你用 Claude Code 或 oh-my-opencode 作为宿主,它负责调度整个流程、执行脚本、管理对话。
第三层(增强):
- 一个 MCP Server 连接你们公司的数据仓库(技术同学搭建),AI 可以通过它查 GMV 数据。
- 一个 Skill 定义了”GMV 简报”的工作流程:先拉数据、再生成分析、最后调用飞书 API 发消息。
整个链路:你发出一条指令 → 宿主接收 → LLM 理解和规划 → 通过 Skill 的脚本拉取数据(MCP 提供数据库访问)→ LLM 生成文字 → 宿主执行飞书 API 发送简报。
每一层做自己擅长的事,没有哪一层可以替代另一层。
六、常见的混淆和误区
误区一:”我在用 Cursor,我就是在用 Claude”
不一定。Cursor 是宿主,它可以接 Claude,也可以接 GPT-4,也可以接本地模型。工具 ≠ 模型。
误区二:”Claude Code 和 Cursor 是竞争产品”
从某种角度看是,但它们属于不同形态。Cursor 是 IDE,带图形界面;Claude Code 是 CLI,在终端里用。你甚至可以同时用两者——在 Cursor 里做交互式编辑,在终端里用 Claude Code 做批量处理。
误区三:”Skill 是给工程师用的,我用不上”
错。Skill 的设计初衷就是让非工程师也能定义 AI 的工作方式。一个 Skill 的核心是一份 Markdown 文档,你只需要用自然语言写清楚”遇到 XX 任务,按照 YY 步骤去做”,AI 就能照着执行。会写文档,就能写 Skill。
误区四:”换了 LLM,一切都要重来”
不是。这正是三层结构的价值所在。你的 Skill 是写给 AI 看的说明书,不依赖特定 LLM;你用的宿主(如 oh-my-opencode)通常支持切换底层模型。上层的东西不会因为你换了大脑就失效。
误区五:”MCP 和 Skill 是一回事”
不是。MCP 是技术底层,负责”AI 怎么连接外部系统”;Skill 是业务上层,负责”AI 遇到这类任务该怎么做”。一个 Skill 里可能会用到 MCP 提供的工具,但两者是不同层次的概念。
七、给业务人员的实操建议
如果你是一个业务人员,正在被这些概念搞晕,以下是一个简单的决策框架:
Step 1:先锁定你的宿主(CLI 或 IDE)
- 如果你在用 Mac/Linux,且不怕命令行,试试 Claude Code 或 oh-my-opencode
- 如果你想要图形界面,用 Cursor 或 Trae(国内访问更稳定)
- 不确定?先装 Cursor,门槛最低
Step 2:不要纠结底层用哪个 LLM
宿主通常会帮你选一个默认模型(比如 Cursor 默认 Claude)。在你刚开始用的阶段,不需要研究模型差异,先跑起来。
Step 3:Skill 是你”训练 AI 理解你业务”的核心工具
当你发现某类任务 AI 经常做不到位,或者每次都要重复给它解释背景,这时候就值得写一个 Skill——把背景、流程、规范一次性写清楚,让 AI 永远记得。
Step 4:MCP 交给技术同学
你不需要关心 MCP 怎么实现。你只需要告诉技术同学”我希望 AI 能访问 XXX 系统的数据”,让他们帮你搭好 MCP Server。
总结
用一张图把三层关系固化在脑子里:
1 | 你的需求 |
- LLM = 大脑,真正思考的部分,你通过 API 访问它
- CLI / IDE = 你操作 AI 的界面,不同形态,本质相同
- Skill = 给 AI 的操作手册,你写,AI 执行
- MCP = 标准插头,让 AI 能连接外部系统
这四件东西,各司其职,层层叠加,组成了你每天在用的那些 AI 工具。
下次再看到一个新工具的名字,先问自己:它属于哪一层?——这一个问题,能帮你排除 80% 的困惑。