首页 / CC成长营 / Claude Code 实战 · 第 8 讲

用 claude -p 搭评测台：给模型/Prompt 打分

这是整个第四部分的高潮。第 6 讲说"能衡量才能优化"，第 7 讲给了你工具 claude -p。现在合体：搭一个自动评测台——100 个测试集 × 多个模型 × 多版 prompt 全部自动跑，再让 AI 当评审打分，让数据替你选方案。

回到我们的练习项目（核心实战）：你要在 3 个模型 × 2 版 prompt = 6 种方案里，选出翻译质量最好的。你准备了 100 条测试句（覆盖日常、专业、口语、长句）。手动跑 600 次再人工评分？不可能。用 claude -p 搭评测台，一键全自动跑完，输出一张打分排行榜。

核心思想：让 AI 给 AI 打分（LLM 当评审）

评测的难点是"谁来评判译文好不好"。人工评 600 条不现实。解法是 用一个 AI 当评审员（业界叫 "LLM as a judge"）：给它评分标准，让它对每条译文按标准打分。claude -p 正好能把这个"评审员"变成一个可批量调用的函数。

评测台的结构

组成	是什么
① 测试集	100 条代表性输入（+ 可选的参考答案）
② 被测方案	要比较的"模型 × prompt"组合（本例 6 种）
③ 跑测	每个方案对 100 条各跑一遍，产出译文
④ 评审（claude -p）	对每条译文，按评分标准打分（如准确/流畅/术语各 1–5 分）
⑤ 汇总	算每个方案的平均分，排出榜单

评审 prompt 是评测台的灵魂

评审员靠不靠谱，全看你给它的评分标准（rubric）写得清不清楚。模糊的"你觉得好不好"会给出随意分；好的评审 prompt 会：明确分几个维度、每个维度各档分什么意思、要求给分+给理由、只输出结构化结果（便于汇总）。这和第三部分"甄别"讲的"先定标准再批量执行"是同一套功夫。

关键技巧：校准你的评审员 AI 评审也会错。所以上线评测前，先抽 10～20 条让 AI 评、你也亲自评，对一对——如果 AI 的分和你的判断基本一致，说明评审标准校准好了，可以放它批量评 600 条；如果偏差大，就调评分标准，直到对齐。没校准的评审台，跑出来的榜单可能是错的。

跟我做一遍：搭一个翻译评测台

第一步 · 准备测试集 + 评分标准

复制

我要给翻译方案做评测。帮我：
1) 设计一个 100 条的测试集结构（覆盖 日常/专业/口语/长难句 各类），先给我 10 条样例；
2) 设计一个翻译质量评分标准：分 准确性、流畅性、术语一致性 三个维度，
   每维 1-5 分并说明每档含义，要求评审输出 JSON：{各维度分, 总分, 理由}。

第二步 · 校准评审员（关键，别跳过）

先对齐人和 AI 的判断

用这个评分标准，让 claude -p 当评审，对 10 条译文样例打分。
把它的打分和理由列给我，我来人工核对。
如果它打得和我判断不一致，帮我调整评分标准直到对齐。

第三步 · 搭全自动评测台并跑分

一键跑 6 方案 × 100 条

评分标准校准好了。帮我搭一个评测台脚本：
- 被测方案：3 个模型 × 2 版翻译 prompt = 6 种组合；
- 对 100 条测试集，每个方案各跑一遍产出译文；
- 用 claude -p 作评审，按校准好的标准给每条译文打分；
- 汇总每个方案的平均分，输出一张排行榜（含各维度均分、总分、耗时、预估成本）。
先用 5 条数据小规模跑通验证，再放量到 100 条。

第四步 · 读榜单做决策

让数据帮你选

根据排行榜帮我分析：综合质量、速度、成本，推荐用哪个方案？
有没有"质量只差一点点但便宜很多"的高性价比选项？
另外，把每个方案得分最低的几条挑出来，告诉我它们栽在哪——这是我下一步优化的方向。

✓ 你刚刚搭出的 一个可复用的评测台：以后每次换模型、改 prompt，跑一遍就知道分数涨没涨——"能衡量才能优化"真正落地了。这套东西，是把 AI 产品做好的核心竞争力，而绝大多数人根本不知道可以这么做。

⚠ 评测台的两个注意点 ① 评审也是成本：600 条译文 + 600 次评审，是真金白银。先小规模跑通、用快省档当评审初筛，能省不少。② 评审不是绝对真理：它能可靠地分出"明显更好/更差"，但对"难分伯仲"的方案，关键场景仍要人工复核几条。把它当"高效初筛 + 排序"，不是"最终法官"。

这一讲记住什么

评测台 = 测试集 × 被测方案 → 跑测 → claude -p 评审打分 → 汇总排行。
核心是让 AI 当评审（LLM as judge），靠清晰的评分标准。
放量前必须校准评审员（AI 评分 vs 人工对齐）。
它让"模型×prompt 优化"可量化、可复现，是 AI 产品的核心竞争力。

← 上一讲claude -p：可编程的 AI 函数下一讲 →claude -p 更多实战场景