首页 / CC成长营 / 完成复杂任务 · 第 4 讲

第三步·甄别:识广告、揪水军、留真声

采来的上千条里,混着大量软广推广帖和评论区的水军。如果不先去伪存真,你分析出的"用户偏好"其实是品牌方花钱营造的假象。这一讲是整个研究最值钱、也最考验专业度的一步。

回到白酒案例:你采到 1000 条。其中可能有几百条是某品牌投放的"种草帖"——文案精美、清一色夸某款酒好喝。如果照单全收,你会得出"年轻人都爱喝 XX 度的 YY 酒"的错误结论,而那只是广告预算的结果。你要的是真实用户自发的声音。

核心思路:先定标准,再让 AI 批量执行

甄别上千条,靠人看不现实,靠 AI 随性判断又不一致。专业做法是:你先和 AI 一起定义一套清晰的判别标准(rubric),然后让 AI 拿这把统一的尺子去量每一条。标准统一,结果才可比、可复现。

判别广告帖:常见信号

偏广告的信号偏真实的信号
通篇只夸、无任何缺点有褒有贬、提到具体不满
文案过度精致、像文案策划口语化、有生活细节
带明显引导购买/链接/优惠纯分享、无导购意图
反复出现同一品牌同一卖点自然提及、品牌分散
账号内容高度集中带货账号内容多元、像真人日常

识别评论区水军

评论区大部分是真实的(这是它比正文更有价值的原因),但也有水军。常见信号:内容空泛雷同("好喝""想买"刷屏)、短时间集中涌现、与正文高度配合彩虹屁、账号无历史。评论区的真实声音,是穿透广告迷雾最可靠的入口。

关键方法:不是非黑即白,而是打"可信度权重" 与其粗暴地"删广告留真帖",更专业的是给每条打一个可信度分(比如 0-1)和类型标签(真实分享 / 疑似广告 / 水军)。分析时按可信度加权——真实声音权重高,疑似广告权重低但不全扔(广告也反映品牌主打方向,是竞品情报)。

跟我做一遍:让 AI 用统一标准批量甄别

第一步 · 和 AI 共建判别标准
复制
我们要从采集到的白酒相关帖子+评论中区分"真实用户声音"和
"商业推广/水军"。先帮我制定一套判别标准:
列出判断"广告帖""水军评论"的具体信号,
并设计一个打分规则:每条给出 类型标签 + 0~1 的可信度分 + 判断依据。
先把标准定清楚,我确认后再批量执行。
第二步 · 先在小样本上校准标准
用小样本验证尺子准不准
先拿 30 条按这套标准打标,把结果列给我,标注判断依据。
我来核对你判得准不准,再据此微调标准。
第三步 · 标准定稿后,批量打标全量
放量执行(必要时分批并行)
标准没问题了。对全部数据按此标准批量打标,
把 类型标签、可信度分、依据 写回数据表对应字段。
数据量大就分批处理再合并,完成后给我一份分布统计:
真实/疑似广告/水军 各占多少。
✓ 你刚刚学会的 甄别的精髓是"先定标准,小样校准,再批量执行"。这样 AI 不是凭感觉,而是拿一把你认可的统一尺子量到底——结果一致、可解释、可复现。这是研究能不能信的分水岭。
⚠ 抽样复核,别全托管 AI 打的标也会有错(呼应第二部分)。标准定稿后,随机抽几十条人工复核它的判断,确认准确率在可接受范围再用。规模化的活,质量靠"抽检"保证(第 9 讲专门讲)。

这一讲记住什么