首页 / CC成长营 / 完成复杂任务 · 第 4 讲

第三步·甄别：识广告、揪水军、留真声

采来的上千条里，混着大量软广推广帖和评论区的水军。如果不先去伪存真，你分析出的"用户偏好"其实是品牌方花钱营造的假象。这一讲是整个研究最值钱、也最考验专业度的一步。

回到白酒案例：你采到 1000 条。其中可能有几百条是某品牌投放的"种草帖"——文案精美、清一色夸某款酒好喝。如果照单全收，你会得出"年轻人都爱喝 XX 度的 YY 酒"的错误结论，而那只是广告预算的结果。你要的是真实用户自发的声音。

核心思路：先定标准，再让 AI 批量执行

甄别上千条，靠人看不现实，靠 AI 随性判断又不一致。专业做法是：你先和 AI 一起定义一套清晰的判别标准（rubric），然后让 AI 拿这把统一的尺子去量每一条。标准统一，结果才可比、可复现。

判别广告帖：常见信号

偏广告的信号	偏真实的信号
通篇只夸、无任何缺点	有褒有贬、提到具体不满
文案过度精致、像文案策划	口语化、有生活细节
带明显引导购买/链接/优惠	纯分享、无导购意图
反复出现同一品牌同一卖点	自然提及、品牌分散
账号内容高度集中带货	账号内容多元、像真人日常

识别评论区水军

评论区大部分是真实的（这是它比正文更有价值的原因），但也有水军。常见信号：内容空泛雷同（"好喝""想买"刷屏）、短时间集中涌现、与正文高度配合彩虹屁、账号无历史。评论区的真实声音，是穿透广告迷雾最可靠的入口。

关键方法：不是非黑即白，而是打"可信度权重" 与其粗暴地"删广告留真帖"，更专业的是给每条打一个可信度分（比如 0-1）和类型标签（真实分享 / 疑似广告 / 水军）。分析时按可信度加权——真实声音权重高，疑似广告权重低但不全扔（广告也反映品牌主打方向，是竞品情报）。

跟我做一遍：让 AI 用统一标准批量甄别

第一步 · 和 AI 共建判别标准

复制

我们要从采集到的白酒相关帖子+评论中区分"真实用户声音"和
"商业推广/水军"。先帮我制定一套判别标准：
列出判断"广告帖""水军评论"的具体信号，
并设计一个打分规则：每条给出 类型标签 + 0~1 的可信度分 + 判断依据。
先把标准定清楚，我确认后再批量执行。

第二步 · 先在小样本上校准标准

用小样本验证尺子准不准

先拿 30 条按这套标准打标，把结果列给我，标注判断依据。
我来核对你判得准不准，再据此微调标准。

第三步 · 标准定稿后，批量打标全量

放量执行（必要时分批并行）

标准没问题了。对全部数据按此标准批量打标，
把 类型标签、可信度分、依据 写回数据表对应字段。
数据量大就分批处理再合并，完成后给我一份分布统计：
真实/疑似广告/水军 各占多少。

✓ 你刚刚学会的 甄别的精髓是"先定标准，小样校准，再批量执行"。这样 AI 不是凭感觉，而是拿一把你认可的统一尺子量到底——结果一致、可解释、可复现。这是研究能不能信的分水岭。

⚠ 抽样复核，别全托管 AI 打的标也会有错（呼应第二部分）。标准定稿后，随机抽几十条人工复核它的判断，确认准确率在可接受范围再用。规模化的活，质量靠"抽检"保证（第 9 讲专门讲）。

这一讲记住什么

不先甄别，分析出的"偏好"可能是广告预算的假象。
方法：先共建判别标准 → 小样校准 → 批量打标。
不做非黑即白，给每条打类型标签 + 可信度权重，分析时加权。
评论区是真实声音的金矿；AI 打标后要人工抽检。

← 上一讲第二步·采集：系统性"扫"全量信息下一讲 →第四步·分析：从一千条噪音提炼洞察