同一任务怎么调到最好:模型×Prompt 优化
同一个翻译任务,换个模型、改几句 prompt,效果可能天差地别。问题是——你怎么知道哪个组合更好?这一讲讲清产品调优的核心循环,并引出后面最关键的工具:评测。
回到我们的练习项目:你手上有 3 个候选模型(快省/均衡/旗舰)和 2 版翻译 prompt,组合起来 6 种方案。到底用哪个?凭感觉各试两句就拍板,是新手;专业做法是——用一批代表性的测试数据,让 6 种方案都跑一遍,按统一标准打分,看数据说话。
核心信条:能衡量,才能优化
这是整个 AI 工程里最重要的一句话。没有衡量,你的"调优"只是瞎改——改完觉得"好像好点了",其实只是看了运气好的两个例子。专业的优化是一个闭环:
- 定标准:什么样的译文算好?(准确、流畅、术语对、不增删)
- 建测试集:准备一批有代表性的输入(覆盖各种情况)。
- 跑各方案:每个"模型×prompt"组合,把测试集全跑一遍。
- 打分对比:按标准给每个方案的输出打分,排出高下。
- 改进再测:针对失分点改 prompt 或换模型,重跑,看分有没有涨。
为什么"两句话试试"会骗你
大模型有随机性,单个例子的好坏是噪音。用 2 个例子下结论,跟用 20 条帖子判断市场一样不靠谱(第三部分讲过)。要看一批数据上的平均表现,才能分清"真的更好"和"恰好这次运气好"。
影响表现的几个可调旋钮
| 旋钮 | 怎么影响 |
|---|---|
| 换模型 | 能力上限不同(第 3 讲),最直接但也最贵的变量 |
| 改 prompt | 同一模型,prompt 写法不同,效果差很多(第 4 讲) |
| 加 few-shot 例子 | 给对例子,边界情况立刻变稳 |
| 调 temperature | 翻译这类求准的,调低更稳 |
| 改 pipeline 结构 | 加一步质量自检,整体质量上一个台阶 |
关键:一次只动一个旋钮,否则分数变了你不知道是哪个起的作用(这是做实验的基本纪律)。
但手动跑 6 个方案 × 几十条数据,太累了
这正是问题所在:优化需要大量重复的"跑+打分"。一个个手动复制粘贴,跑几轮人就崩了,也没法持续做。所以这件事必须自动化、规模化。
✓ 承上启下
"能衡量才能优化"成立,但前提是衡量这件事本身要能自动、规模地做。怎么做?答案就是接下来三讲的主角——
claude -p(无头模式):把 Claude Code 变成一个能被程序批量调用的"AI 函数",用它自动跑测试、自动打分。这是很多人不知道、却极其强大的一招。
这一讲记住什么
- 同一任务,模型×prompt 组合的表现差异巨大。
- 核心信条:能衡量,才能优化;"两句话试试"会骗你。
- 优化闭环:定标准 → 建测试集 → 跑各方案 → 打分对比 → 改进再测。
- 做实验要一次只动一个旋钮;衡量必须自动化、规模化(下一讲)。