lywsvip/prompt-optimizer

mirror of https://github.com/linshenkx/prompt-optimizer.git synced 2026-05-07 22:18:23 +08:00

Files

linshen d76b2dadef docs(mkdocs): update image workflow tutorials

2026-04-06 21:14:23 +08:00

3.8 KiB

Raw Permalink Blame History

多图生图工作区

路由：/#/image/multiimage

这个工作区适合“基于多张输入图和一条提示词生成新图”的场景。

第一次使用，先这样判断

如果满足下面两条，通常就该用这个页面：

你主要想生成图片，而不是文字答案
你不是基于单张输入图微调，而是要让多张图一起参与生成

什么时候用它

适合：

把角色图、服装图、场景图组合成一张新图
用多张参考图约束主体关系、构图语义或风格方向
比较同一组输入图在不同提示词版本下的生成差异
比较同一组输入图在不同图像模型下的结果差异

不适合：

只有文字提示，没有任何输入图
只有一张输入图，主要目标是继续改这张图

那两种情况分别更适合去文生图工作区和图生图工作区。

如果你只想快速开始，看这 6 步

先上传至少两张输入图
用拖拽调整卡片顺序，确定 图1 / 图2 / 图3 的语义
如果传错了图，用卡片右上角的 X 删除
左侧提示词里明确写出图和图之间的关系
左侧先做一次分析或优化
右侧固定一个支持多图输入的图像模型，比 原始 / 工作区 / vN

左侧到底在改什么

左侧改的是 多图生图提示词本身。

当前页面可以这样理解：

左侧上方：原始多图提示词
左侧中部：输入图卡片区
左侧下方：当前工作区和版本链
左侧使用的是文本模型，不是图像模型

左侧 分析 / 优化 / 迭代 的目标，不是描述每张图“长什么样”，而是把多张图之间的组合关系、保留边界和生成目标写清楚。

输入图片区最重要的语义是什么

这个页面和单图模式最大的区别，不只是“多传几张图”，而是 顺序本身带语义。

当前界面里有几个关键动作：

至少上传两张图后，才能开始多图生图
每张图都会以卡片形式展示
卡片底部拖拽句柄用于调整顺序
卡片右上角 X 用于删除错误图片
提示词里最好直接写 图1 / 图2 / 图3

如果你调整了卡片顺序，提示词里的引用关系也要一起跟着改。

右侧到底在测什么

右侧测的是：

某个提示词版本
同一组有顺序的输入图
某个支持多图输入的图像模型
最终真实生成出来的图片

所以多图模式里，最重要的比较基线是：

输入图片集合保持一致
输入图片顺序保持一致
再比较提示词版本或模型差异

推荐工作流

先上传至少两张图
通过拖拽整理成明确顺序
左侧用 图1 / 图2 / 图3 写出关系和目标
左侧先做一次分析或优化
右侧先固定同一个图像模型，比 原始 / 工作区 / vN
选出更靠谱的提示词版本
再固定这个版本，比较不同图像模型

最容易犯的错

最常见的问题不是“模型不够强”，而是比较基线混乱。

例如同时改了：

输入图顺序
提示词版本
图像模型

这样结果一变，你很难判断到底是哪一项起了作用。

更稳的做法是：

先固定同一组有顺序的输入图，比不同提示词版本
再固定同一版提示词和同一组输入图，比不同图像模型

右侧结果里通常能看到什么

当前结果卡片里通常会展示：

生成结果图
模型可能返回的文本内容
输出图片尺寸和类型
token 元数据
推理耗时

相关页面