用 claude -p 搭评测台:给模型/Prompt 打分
这是整个第四部分的高潮。第 6 讲说"能衡量才能优化",第 7 讲给了你工具 claude -p。现在合体:搭一个自动评测台——100 个测试集 × 多个模型 × 多版 prompt 全部自动跑,再让 AI 当评审打分,让数据替你选方案。
回到我们的练习项目(核心实战):你要在 3 个模型 × 2 版 prompt = 6 种方案里,选出翻译质量最好的。你准备了 100 条测试句(覆盖日常、专业、口语、长句)。手动跑 600 次再人工评分?不可能。用 claude -p 搭评测台,一键全自动跑完,输出一张打分排行榜。
核心思想:让 AI 给 AI 打分(LLM 当评审)
评测的难点是"谁来评判译文好不好"。人工评 600 条不现实。解法是 用一个 AI 当评审员(业界叫 "LLM as a judge"):给它评分标准,让它对每条译文按标准打分。claude -p 正好能把这个"评审员"变成一个可批量调用的函数。
评测台的结构
| 组成 | 是什么 |
|---|---|
| ① 测试集 | 100 条代表性输入(+ 可选的参考答案) |
| ② 被测方案 | 要比较的"模型 × prompt"组合(本例 6 种) |
| ③ 跑测 | 每个方案对 100 条各跑一遍,产出译文 |
| ④ 评审(claude -p) | 对每条译文,按评分标准打分(如准确/流畅/术语 各 1–5 分) |
| ⑤ 汇总 | 算每个方案的平均分,排出榜单 |
评审 prompt 是评测台的灵魂
评审员靠不靠谱,全看你给它的评分标准(rubric)写得清不清楚。模糊的"你觉得好不好"会给出随意分;好的评审 prompt 会:明确分几个维度、每个维度各档分什么意思、要求给分+给理由、只输出结构化结果(便于汇总)。这和第三部分"甄别"讲的"先定标准再批量执行"是同一套功夫。
关键技巧:校准你的评审员
AI 评审也会错。所以上线评测前,先抽 10~20 条让 AI 评、你也亲自评,对一对——如果 AI 的分和你的判断基本一致,说明评审标准校准好了,可以放它批量评 600 条;如果偏差大,就调评分标准,直到对齐。没校准的评审台,跑出来的榜单可能是错的。
跟我做一遍:搭一个翻译评测台
第一步 · 准备测试集 + 评分标准
复制
我要给翻译方案做评测。帮我:
1) 设计一个 100 条的测试集结构(覆盖 日常/专业/口语/长难句 各类),先给我 10 条样例;
2) 设计一个翻译质量评分标准:分 准确性、流畅性、术语一致性 三个维度,
每维 1-5 分并说明每档含义,要求评审输出 JSON:{各维度分, 总分, 理由}。
第二步 · 校准评审员(关键,别跳过)
先对齐人和 AI 的判断
用这个评分标准,让 claude -p 当评审,对 10 条译文样例打分。
把它的打分和理由列给我,我来人工核对。
如果它打得和我判断不一致,帮我调整评分标准直到对齐。
第三步 · 搭全自动评测台并跑分
一键跑 6 方案 × 100 条
评分标准校准好了。帮我搭一个评测台脚本:
- 被测方案:3 个模型 × 2 版翻译 prompt = 6 种组合;
- 对 100 条测试集,每个方案各跑一遍产出译文;
- 用 claude -p 作评审,按校准好的标准给每条译文打分;
- 汇总每个方案的平均分,输出一张排行榜(含各维度均分、总分、耗时、预估成本)。
先用 5 条数据小规模跑通验证,再放量到 100 条。
第四步 · 读榜单做决策
让数据帮你选
根据排行榜帮我分析:综合质量、速度、成本,推荐用哪个方案?
有没有"质量只差一点点但便宜很多"的高性价比选项?
另外,把每个方案得分最低的几条挑出来,告诉我它们栽在哪——这是我下一步优化的方向。
✓ 你刚刚搭出的
一个可复用的评测台:以后每次换模型、改 prompt,跑一遍就知道分数涨没涨——"能衡量才能优化"真正落地了。这套东西,是把 AI 产品做好的核心竞争力,而绝大多数人根本不知道可以这么做。
⚠ 评测台的两个注意点
① 评审也是成本:600 条译文 + 600 次评审,是真金白银。先小规模跑通、用快省档当评审初筛,能省不少。② 评审不是绝对真理:它能可靠地分出"明显更好/更差",但对"难分伯仲"的方案,关键场景仍要人工复核几条。把它当"高效初筛 + 排序",不是"最终法官"。
这一讲记住什么
- 评测台 = 测试集 × 被测方案 → 跑测 → claude -p 评审打分 → 汇总排行。
- 核心是让 AI 当评审(LLM as judge),靠清晰的评分标准。
- 放量前必须校准评审员(AI 评分 vs 人工对齐)。
- 它让"模型×prompt 优化"可量化、可复现,是 AI 产品的核心竞争力。