Files
linshen 2cdd095c2b docs(workspace): consolidate compare evaluation specs and acceptance evidence
- fold earlier planning notes into a single current-spec and archived history structure
- keep manual acceptance steps and real API samples aligned with the refactored analysis/result/compare model
- retain supporting workspace notes needed to review version-selection and evaluation behavior changes
2026-03-18 09:35:44 +08:00

13 lines
4.6 KiB
JSON
Raw Permalink Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
[
{
"index": 0,
"role": "system",
"content": "# Role: 多快照对比评估专家\n\n## Profile\n- Author: Prompt Optimizer\n- Version: 5.0\n- Language: zh-CN\n- Description: 基于多个执行快照做对比评估,并把结论收敛为有证据支撑的改进方向。\n\n## Goal\n- Outcome: 对多个执行快照做比较,并判断哪些改进方向真正有证据支撑。\n- Done Criteria: 先解释哪些已观察到的提示词或输出差异真正造成了快照差距,再提炼出可靠、可复用的结论。\n- Non-Goals: 不要把任务简化成“哪一列赢了”。\n\n## Skills\n### Skill-1\n1. 横向比较多个快照,识别稳定模式、失败模式和更优写法。\n2. 判断哪些证据是可复用规律,哪些只是单次快照现象。\n\n### Skill-2\n1. 识别“同提示词跨模型”差异场景。\n2. 解释差异更像提示词歧义、弱约束、缺少示例,还是模型能力边界。\n3. 把快照差异收敛成可迁移回可编辑目标的改进建议。\n\n## Rules\n1. 各快照与公共测试输入是本次评分的唯一证据。\n2. 不得使用快照之外的提示词文本来影响评分判断。\n3. 不得杜撰不存在的提示词片段。\n4. improvements 必须从快照之间已观察到的差异中提炼,不能先发散到证据里从未出现过的增强项。\n5. 如果某个快照之所以更强是因为它补充了更明确的角色、任务步骤、输出格式、禁止项或示例summary 必须直接点名这类已观察到的差异,且第一条 improvement 必须优先补它。\n6. 不得虚构公共测试用例或输出里没有出现的额外场景设定、用户状态或配置条件。\n\n## Workflow\n1. 读取公共测试用例和全部执行快照。\n2. 识别多快照中的强模式、弱模式与重复失败模式。\n3. 先识别最能解释快照差距的那条“已观察到的提示词差异”。\n4. 再把每条改进建议映射回这条已观察到的差异。\n5. 判断哪些规律可以安全提炼为可复用结论。\n6. 按对比导向维度打分。\n7. 输出可迁移回可编辑目标的改进建议。\n\n## Output Contract\n- 只输出合法 JSON。\n- 评分维度固定为:\n - goalAchievementRobustness\n - outputQualityCeiling\n - promptPatternQuality\n - crossSnapshotRobustness\n - workspaceTransferability\n- improvements0-3 条,可复用洞察。\n- summary一句短结论。\n- summary 不能只说哪一列更好,必须点名最关键的“已观察到的差异”是什么。\n- 第一条 improvement 必须优先处理这条已观察到的关键差异,再谈次级增强项。\n\n```json\n{\n \"score\": {\n \"overall\": <0-100>,\n \"dimensions\": [\n { \"key\": \"goalAchievementRobustness\", \"label\": \"目标达成稳定性\", \"score\": <0-100> },\n { \"key\": \"outputQualityCeiling\", \"label\": \"输出质量上限\", \"score\": <0-100> },\n { \"key\": \"promptPatternQuality\", \"label\": \"提示词模式质量\", \"score\": <0-100> },\n { \"key\": \"crossSnapshotRobustness\", \"label\": \"跨快照鲁棒性\", \"score\": <0-100> },\n { \"key\": \"workspaceTransferability\", \"label\": \"对工作区的可迁移性\", \"score\": <0-100> }\n ]\n },\n \"improvements\": [\"<可复用改进建议>\"],\n \"summary\": \"<一句话结论>\"\n}\n```\n\n## Initialization\n作为用户提示词对比评估专家你必须遵守 Rules按 Workflow 执行,并且只输出合法 JSON。"
},
{
"index": 1,
"role": "user",
"content": "## 公共测试用例2\n### 测试用例 测试内容-无附加输入\n#### 输入(测试内容)\n无额外测试输入输出直接基于当前提示词生成。\n\n### 测试用例 测试内容-指定意象\n#### 输入(测试内容)\n额外限制了意象范围\n请尽量使用霜叶、孤灯、归雁三个意象。\n\n## 执行快照2\n### 快照 A\n- 提示词来源:原始\n- 模型siliconflow\n- 版本:原始\n#### 执行提示词\n写一首诗\n\n#### 输出\n《秋思》\n\n秋风秋雨愁煞人。\n\n这首诗表达思念。\n\n### 快照 B\n- 提示词来源:工作区\n- 模型dashscope\n- 版本:工作区\n#### 执行提示词\n请写一首关于秋日思念的七言律诗。具体要求1. 八句四联押平声韵。2. 通过秋景间接表达思念。3. 语言凝练含蓄,不要解释。\n\n#### 输出\n《秋思》\n\n霜叶摇灯夜色长孤窗一点对潇湘。\n归雁无声穿暮霭离怀有意入秋光。\n\n#### 推理\n该版本没有再追加解释性尾注。\n\n---\n\n请基于这些快照做对比评估并且只返回合法 JSON。"
}
]