prompt-optimizer/mkdocs/docs/zh/user/model-testing-strategy.md

# 模型选择与测试策略

这页不讲 provider 参数怎么填，而是只回答两个问题：

1. 左侧该用什么模型
2. 右侧该怎么比较版本和模型

## 第一次使用，先按这个顺序来

1. 左侧先选一个你熟悉、稳定的优化模型
2. 右侧先选一个你真实会用的目标模型
3. 先比较提示词版本，再比较模型差异

## 先记住 4 句话

1. 左侧模型负责分析、优化和迭代，不负责证明结果真的好用
2. 右侧模型负责真实执行，才是测试证据的来源
3. 想比较提示词版本时，先尽量固定模型和输入
4. 想比较模型差异时，先尽量固定提示词和输入

## 左侧优化模型怎么选

左侧模型的职责是：

- 分析提示词结构
- 生成优化稿
- 继续迭代
- 在文本工作区里承担评估用的分析任务

优先考虑：

- 你最稳定、最熟悉的模型
- 改写和推理能力相对可靠的模型
- 成本和速度在你能接受的范围内

不必强求：

- 一定和线上生产模型完全相同

因为左侧的核心任务是“帮你改提示词”，不是“模拟线上所有真实行为”。

## 右侧测试模型怎么选

右侧模型的职责是：

- 真正执行提示词
- 产出结果
- 为结果评估和对比评估提供证据

如果你有明确的目标模型，右侧优先直接使用它。

例如：

- 线上实际跑 `gpt-4.1-mini`，右侧就优先测它
- 客户环境实际跑本地 `qwen`，右侧就优先测本地模型

## 如果你只想快速开始，看这 3 条就够了

1. 左侧先别纠结，用一个稳定文本模型就行
2. 右侧优先选你真正要上线或真正要用的模型
3. 先固定模型比版本，再固定版本比模型

## 文本工作区里，先比版本还是先比模型

优先比较 **版本**。

做法：

- 固定右侧输入
- 固定测试模型
- 比较 `原始 / 工作区 / vN`

这样你看到的差异，主要来自提示词本身。

优先比较 **模型**。

做法：

- 固定同一条提示词
- 固定同一份测试输入
- 右侧切换不同模型

这样你看到的差异，主要来自模型理解能力和风格差异。

如果你同时改了：

- 提示词版本
- 测试模型

那右侧结果一旦变了，很难判断到底是谁造成的。

## 变量工作区和多消息工作区要额外注意什么

这两个工作区最容易把“输入变化”和“提示词变化”混在一起。

### 变量工作区

如果你在比较提示词版本，右侧变量值尽量保持一致。

否则你看到的结果变化，可能只是变量换了，不是提示词更好了。

### 多消息工作区

如果你在比较某一条消息的版本，整段会话上下文尽量保持一致。

否则你看到的差异，可能是上下文变了，不是当前选中的那条消息更好了。

## 图像工作区是双模型结构

图像工作区和文本工作区最大的不同是：左、右两边天然就是两套模型。

### 左侧

左侧仍然使用 **文本模型**，负责：

- 分析图像提示词
- 优化图像提示词
- 继续迭代

### 右侧

右侧使用 **图像模型**，负责：

- 真正生成图片
- 比较不同版本提示词的出图差异
- 比较不同图像模型的风格差异

## 图像工作区怎么测更有效

### 文生图

推荐顺序：

1. 固定一个图像模型，比 `原始 / 工作区 / vN`
2. 找到更靠谱的提示词版本
3. 再固定这个版本，比较不同图像模型

### 图生图

除了固定提示词和模型，还要尽量固定输入图。

因为输入图一变，整个比较基线就变了。

### 多图生图

除了固定提示词和模型，还要尽量固定：

- 输入图片集合
- 输入图片顺序
- 每张图在提示词里的引用关系

如果你把 `图1 / 图2 / 图3` 的顺序改了，却没有同步改提示词，测试结论通常会失真。

比较前，先做这三件事会更稳：

1. 用拖拽句柄确认图片顺序
2. 用右上角 `X` 删除误传图片
3. 再开始比较 `原始 / 工作区 / vN`

## 浏览器版和桌面版怎么选

如果你主要连接的是：

- 公开 HTTPS API

浏览器版通常够用。

如果你主要连接的是：

- `http://localhost`
- 局域网模型服务
- 企业内网网关
- 可能受 CORS 限制的自定义接口

优先使用桌面版更稳。

这条对文本模型和图像模型都成立。

## 一个最简单的起步策略

### 文本工作区

- 左侧：选一个你熟悉的优化模型
- 右侧：选一个你真实会用的目标模型
- 先比较版本，再比较模型

### 图像工作区

- 左侧：选一个稳定的文本模型
- 右侧：先只选一个主图像模型
- 先比较提示词版本，再比较不同图像模型

## 相关页面

- [快速开始](quick-start.md)
- [测试与评估](testing-evaluation.md)
- [模型管理](../basic/models.md)
- [文生图工作区](../image/text2image-workspace.md)
- [图生图工作区](../image/image2image-workspace.md)
- [多图生图工作区](../image/multiimage-workspace.md)