mirror of
https://github.com/linshenkx/prompt-optimizer.git
synced 2026-06-01 04:00:16 +08:00
201 lines
4.9 KiB
Markdown
201 lines
4.9 KiB
Markdown
# 模型选择与测试策略
|
|
|
|
这页不讲 provider 参数怎么填,而是只回答两个问题:
|
|
|
|
1. 左侧该用什么模型
|
|
2. 右侧该怎么比较版本和模型
|
|
|
|
## 第一次使用,先按这个顺序来
|
|
|
|
1. 左侧先选一个你熟悉、稳定的优化模型
|
|
2. 右侧先选一个你真实会用的目标模型
|
|
3. 先比较提示词版本,再比较模型差异
|
|
|
|
## 先记住 4 句话
|
|
|
|
1. 左侧模型负责分析、优化和迭代,不负责证明结果真的好用
|
|
2. 右侧模型负责真实执行,才是测试证据的来源
|
|
3. 想比较提示词版本时,先尽量固定模型和输入
|
|
4. 想比较模型差异时,先尽量固定提示词和输入
|
|
|
|
## 左侧优化模型怎么选
|
|
|
|
左侧模型的职责是:
|
|
|
|
- 分析提示词结构
|
|
- 生成优化稿
|
|
- 继续迭代
|
|
- 在文本工作区里承担评估用的分析任务
|
|
|
|
优先考虑:
|
|
|
|
- 你最稳定、最熟悉的模型
|
|
- 改写和推理能力相对可靠的模型
|
|
- 成本和速度在你能接受的范围内
|
|
|
|
不必强求:
|
|
|
|
- 一定和线上生产模型完全相同
|
|
|
|
因为左侧的核心任务是“帮你改提示词”,不是“模拟线上所有真实行为”。
|
|
|
|
## 右侧测试模型怎么选
|
|
|
|
右侧模型的职责是:
|
|
|
|
- 真正执行提示词
|
|
- 产出结果
|
|
- 为结果评估和对比评估提供证据
|
|
|
|
如果你有明确的目标模型,右侧优先直接使用它。
|
|
|
|
例如:
|
|
|
|
- 线上实际跑 `gpt-4.1-mini`,右侧就优先测它
|
|
- 客户环境实际跑本地 `qwen`,右侧就优先测本地模型
|
|
|
|
## 如果你只想快速开始,看这 3 条就够了
|
|
|
|
1. 左侧先别纠结,用一个稳定文本模型就行
|
|
2. 右侧优先选你真正要上线或真正要用的模型
|
|
3. 先固定模型比版本,再固定版本比模型
|
|
|
|
## 文本工作区里,先比版本还是先比模型
|
|
|
|
优先比较 **版本**。
|
|
|
|
做法:
|
|
|
|
- 固定右侧输入
|
|
- 固定测试模型
|
|
- 比较 `原始 / 工作区 / vN`
|
|
|
|
这样你看到的差异,主要来自提示词本身。
|
|
|
|
优先比较 **模型**。
|
|
|
|
做法:
|
|
|
|
- 固定同一条提示词
|
|
- 固定同一份测试输入
|
|
- 右侧切换不同模型
|
|
|
|
这样你看到的差异,主要来自模型理解能力和风格差异。
|
|
|
|
如果你同时改了:
|
|
|
|
- 提示词版本
|
|
- 测试模型
|
|
|
|
那右侧结果一旦变了,很难判断到底是谁造成的。
|
|
|
|
## 变量工作区和多消息工作区要额外注意什么
|
|
|
|
这两个工作区最容易把“输入变化”和“提示词变化”混在一起。
|
|
|
|
### 变量工作区
|
|
|
|
如果你在比较提示词版本,右侧变量值尽量保持一致。
|
|
|
|
否则你看到的结果变化,可能只是变量换了,不是提示词更好了。
|
|
|
|
### 多消息工作区
|
|
|
|
如果你在比较某一条消息的版本,整段会话上下文尽量保持一致。
|
|
|
|
否则你看到的差异,可能是上下文变了,不是当前选中的那条消息更好了。
|
|
|
|
## 图像工作区是双模型结构
|
|
|
|
图像工作区和文本工作区最大的不同是:左、右两边天然就是两套模型。
|
|
|
|
### 左侧
|
|
|
|
左侧仍然使用 **文本模型**,负责:
|
|
|
|
- 分析图像提示词
|
|
- 优化图像提示词
|
|
- 继续迭代
|
|
|
|
### 右侧
|
|
|
|
右侧使用 **图像模型**,负责:
|
|
|
|
- 真正生成图片
|
|
- 比较不同版本提示词的出图差异
|
|
- 比较不同图像模型的风格差异
|
|
|
|
## 图像工作区怎么测更有效
|
|
|
|
### 文生图
|
|
|
|
推荐顺序:
|
|
|
|
1. 固定一个图像模型,比 `原始 / 工作区 / vN`
|
|
2. 找到更靠谱的提示词版本
|
|
3. 再固定这个版本,比较不同图像模型
|
|
|
|
### 图生图
|
|
|
|
除了固定提示词和模型,还要尽量固定输入图。
|
|
|
|
因为输入图一变,整个比较基线就变了。
|
|
|
|
### 多图生图
|
|
|
|
除了固定提示词和模型,还要尽量固定:
|
|
|
|
- 输入图片集合
|
|
- 输入图片顺序
|
|
- 每张图在提示词里的引用关系
|
|
|
|
如果你把 `图1 / 图2 / 图3` 的顺序改了,却没有同步改提示词,测试结论通常会失真。
|
|
|
|
比较前,先做这三件事会更稳:
|
|
|
|
1. 用拖拽句柄确认图片顺序
|
|
2. 用右上角 `X` 删除误传图片
|
|
3. 再开始比较 `原始 / 工作区 / vN`
|
|
|
|
## 浏览器版和桌面版怎么选
|
|
|
|
如果你主要连接的是:
|
|
|
|
- 公开 HTTPS API
|
|
|
|
浏览器版通常够用。
|
|
|
|
如果你主要连接的是:
|
|
|
|
- `http://localhost`
|
|
- 局域网模型服务
|
|
- 企业内网网关
|
|
- 可能受 CORS 限制的自定义接口
|
|
|
|
优先使用桌面版更稳。
|
|
|
|
这条对文本模型和图像模型都成立。
|
|
|
|
## 一个最简单的起步策略
|
|
|
|
### 文本工作区
|
|
|
|
- 左侧:选一个你熟悉的优化模型
|
|
- 右侧:选一个你真实会用的目标模型
|
|
- 先比较版本,再比较模型
|
|
|
|
### 图像工作区
|
|
|
|
- 左侧:选一个稳定的文本模型
|
|
- 右侧:先只选一个主图像模型
|
|
- 先比较提示词版本,再比较不同图像模型
|
|
|
|
## 相关页面
|
|
|
|
- [快速开始](quick-start.md)
|
|
- [测试与评估](testing-evaluation.md)
|
|
- [模型管理](../basic/models.md)
|
|
- [文生图工作区](../image/text2image-workspace.md)
|
|
- [图生图工作区](../image/image2image-workspace.md)
|
|
- [多图生图工作区](../image/multiimage-workspace.md)
|