# 模型选择与测试策略 这页不讲 provider 参数怎么填,而是只回答两个问题: 1. 左侧该用什么模型 2. 右侧该怎么比较版本和模型 ## 第一次使用,先按这个顺序来 1. 左侧先选一个你熟悉、稳定的优化模型 2. 右侧先选一个你真实会用的目标模型 3. 先比较提示词版本,再比较模型差异 ## 先记住 4 句话 1. 左侧模型负责分析、优化和迭代,不负责证明结果真的好用 2. 右侧模型负责真实执行,才是测试证据的来源 3. 想比较提示词版本时,先尽量固定模型和输入 4. 想比较模型差异时,先尽量固定提示词和输入 ## 左侧优化模型怎么选 左侧模型的职责是: - 分析提示词结构 - 生成优化稿 - 继续迭代 - 在文本工作区里承担评估用的分析任务 优先考虑: - 你最稳定、最熟悉的模型 - 改写和推理能力相对可靠的模型 - 成本和速度在你能接受的范围内 不必强求: - 一定和线上生产模型完全相同 因为左侧的核心任务是“帮你改提示词”,不是“模拟线上所有真实行为”。 ## 右侧测试模型怎么选 右侧模型的职责是: - 真正执行提示词 - 产出结果 - 为结果评估和对比评估提供证据 如果你有明确的目标模型,右侧优先直接使用它。 例如: - 线上实际跑 `gpt-4.1-mini`,右侧就优先测它 - 客户环境实际跑本地 `qwen`,右侧就优先测本地模型 ## 如果你只想快速开始,看这 3 条就够了 1. 左侧先别纠结,用一个稳定文本模型就行 2. 右侧优先选你真正要上线或真正要用的模型 3. 先固定模型比版本,再固定版本比模型 ## 文本工作区里,先比版本还是先比模型 优先比较 **版本**。 做法: - 固定右侧输入 - 固定测试模型 - 比较 `原始 / 工作区 / vN` 这样你看到的差异,主要来自提示词本身。 优先比较 **模型**。 做法: - 固定同一条提示词 - 固定同一份测试输入 - 右侧切换不同模型 这样你看到的差异,主要来自模型理解能力和风格差异。 如果你同时改了: - 提示词版本 - 测试模型 那右侧结果一旦变了,很难判断到底是谁造成的。 ## 变量工作区和多消息工作区要额外注意什么 这两个工作区最容易把“输入变化”和“提示词变化”混在一起。 ### 变量工作区 如果你在比较提示词版本,右侧变量值尽量保持一致。 否则你看到的结果变化,可能只是变量换了,不是提示词更好了。 ### 多消息工作区 如果你在比较某一条消息的版本,整段会话上下文尽量保持一致。 否则你看到的差异,可能是上下文变了,不是当前选中的那条消息更好了。 ## 图像工作区是双模型结构 图像工作区和文本工作区最大的不同是:左、右两边天然就是两套模型。 ### 左侧 左侧仍然使用 **文本模型**,负责: - 分析图像提示词 - 优化图像提示词 - 继续迭代 ### 右侧 右侧使用 **图像模型**,负责: - 真正生成图片 - 比较不同版本提示词的出图差异 - 比较不同图像模型的风格差异 ## 图像工作区怎么测更有效 ### 文生图 推荐顺序: 1. 固定一个图像模型,比 `原始 / 工作区 / vN` 2. 找到更靠谱的提示词版本 3. 再固定这个版本,比较不同图像模型 ### 图生图 除了固定提示词和模型,还要尽量固定输入图。 因为输入图一变,整个比较基线就变了。 ### 多图生图 除了固定提示词和模型,还要尽量固定: - 输入图片集合 - 输入图片顺序 - 每张图在提示词里的引用关系 如果你把 `图1 / 图2 / 图3` 的顺序改了,却没有同步改提示词,测试结论通常会失真。 比较前,先做这三件事会更稳: 1. 用拖拽句柄确认图片顺序 2. 用右上角 `X` 删除误传图片 3. 再开始比较 `原始 / 工作区 / vN` ## 浏览器版和桌面版怎么选 如果你主要连接的是: - 公开 HTTPS API 浏览器版通常够用。 如果你主要连接的是: - `http://localhost` - 局域网模型服务 - 企业内网网关 - 可能受 CORS 限制的自定义接口 优先使用桌面版更稳。 这条对文本模型和图像模型都成立。 ## 一个最简单的起步策略 ### 文本工作区 - 左侧:选一个你熟悉的优化模型 - 右侧:选一个你真实会用的目标模型 - 先比较版本,再比较模型 ### 图像工作区 - 左侧:选一个稳定的文本模型 - 右侧:先只选一个主图像模型 - 先比较提示词版本,再比较不同图像模型 ## 相关页面 - [快速开始](quick-start.md) - [测试与评估](testing-evaluation.md) - [模型管理](../basic/models.md) - [文生图工作区](../image/text2image-workspace.md) - [图生图工作区](../image/image2image-workspace.md) - [多图生图工作区](../image/multiimage-workspace.md)