首页 / CC成长营 / Claude Code 实战 · 第 6 讲

同一任务怎么调到最好：模型×Prompt 优化

同一个翻译任务，换个模型、改几句 prompt，效果可能天差地别。问题是——你怎么知道哪个组合更好？这一讲讲清产品调优的核心循环，并引出后面最关键的工具：评测。

回到我们的练习项目：你手上有 3 个候选模型（快省/均衡/旗舰）和 2 版翻译 prompt，组合起来 6 种方案。到底用哪个？凭感觉各试两句就拍板，是新手；专业做法是——用一批代表性的测试数据，让 6 种方案都跑一遍，按统一标准打分，看数据说话。

核心信条：能衡量，才能优化

这是整个 AI 工程里最重要的一句话。没有衡量，你的"调优"只是瞎改——改完觉得"好像好点了"，其实只是看了运气好的两个例子。专业的优化是一个闭环：

定标准：什么样的译文算好？（准确、流畅、术语对、不增删）
建测试集：准备一批有代表性的输入（覆盖各种情况）。
跑各方案：每个"模型×prompt"组合，把测试集全跑一遍。
打分对比：按标准给每个方案的输出打分，排出高下。
改进再测：针对失分点改 prompt 或换模型，重跑，看分有没有涨。

为什么"两句话试试"会骗你 大模型有随机性，单个例子的好坏是噪音。用 2 个例子下结论，跟用 20 条帖子判断市场一样不靠谱（第三部分讲过）。要看一批数据上的平均表现，才能分清"真的更好"和"恰好这次运气好"。

影响表现的几个可调旋钮

旋钮	怎么影响
换模型	能力上限不同（第 3 讲），最直接但也最贵的变量
改 prompt	同一模型，prompt 写法不同，效果差很多（第 4 讲）
加 few-shot 例子	给对例子，边界情况立刻变稳
调 temperature	翻译这类求准的，调低更稳
改 pipeline 结构	加一步质量自检，整体质量上一个台阶

关键：一次只动一个旋钮，否则分数变了你不知道是哪个起的作用（这是做实验的基本纪律）。

但手动跑 6 个方案 × 几十条数据，太累了

这正是问题所在：优化需要大量重复的"跑+打分"。一个个手动复制粘贴，跑几轮人就崩了，也没法持续做。所以这件事必须自动化、规模化。

✓ 承上启下 "能衡量才能优化"成立，但前提是衡量这件事本身要能自动、规模地做。怎么做？答案就是接下来三讲的主角——claude -p（无头模式）：把 Claude Code 变成一个能被程序批量调用的"AI 函数"，用它自动跑测试、自动打分。这是很多人不知道、却极其强大的一招。

这一讲记住什么

同一任务，模型×prompt 组合的表现差异巨大。
核心信条：能衡量，才能优化；"两句话试试"会骗你。
优化闭环：定标准 → 建测试集 → 跑各方案 → 打分对比 → 改进再测。
做实验要一次只动一个旋钮；衡量必须自动化、规模化（下一讲）。

← 上一讲Pipeline：把多步骤串成可靠流水线下一讲 →claude -p：把 Claude Code 当可编程的 AI 函数