首页 / CC成长营 / 完成复杂任务 · 第 3 讲

第二步·采集:系统性"扫"全量信息

方案有了,开始取证。这一步的精髓是"扫"而不是"搜"——不是随手翻 20 条,而是把范围内的公开信息系统性、结构化地批量采集下来,并当场存成能分析的表。

回到白酒案例:你要的不是"几条年轻人喝白酒的帖子",而是近 2 年、与主题相关、上限 ~1000 条的帖子和它们的评论。靠人一条条复制,一周都干不完。这一步就是让 AI + 工具,把这件"体力活"系统化地完成。

"搜" 和 "扫" 的本质区别

搜(业余)扫(专业)
覆盖看到几条算几条覆盖范围内的全量
方式人工逐条看AI 批量、自动化地取
产出脑子里的模糊印象一张结构化的数据表
可复现没法复现方法固定,随时能重跑

关键动作:采集即结构化

采集的同时就要存成表,而不是先囤一堆乱文本。每采一条,就提取成固定字段。这样后面分析时直接能用。建议的字段例如:

⚠ 合规与节制:这是专业素养,不是可选项 大规模采集公开内容,务必守住底线:① 只取公开可见信息,不碰需要登录才能看的私密内容;② 尊重平台规则(robots、服务条款),平台明确禁止的不要硬来;③ 优先用官方开放接口/API,有正门就别翻墙;④ 控制访问频率,别把人家服务器打挂;⑤ 不采集、不存储个人隐私(手机号、住址等)。越界不仅有法律风险,也会害了你和公司。能力越大,越要守规矩——这是第二部分"红线"思维的延续。

跟我做一遍:搭起采集流程

在 Claude Code 里(回顾第一/二讲的项目思维),把采集当成一个可重跑的流程来搭。

第一步 · 先定义"采什么、存成什么样"
复制
我要采集近 2 年关于"年轻人喝白酒、白酒口味偏好、年轻人选白酒"的
公开帖子及其评论,目标约 1000 条。先别开始,先跟我确认:
1) 你打算用什么合规的方式获取(优先官方接口/公开页面);
2) 每条要提取成哪些字段,给我一个表头设计;
3) 如何控制频率、避免违规。
确认方案后我再让你执行。
第二步 · 让它把采集做成可重跑的脚本
把一次性变可复用
方案可以。把采集写成一个脚本:
按关键词和时间窗采集,去重,控制请求频率,
每条按我们定的表头存进一个表格文件,跑的过程打印进度。
先小规模试跑 20 条给我看效果,没问题我们再放量。
第三步 · 验证小样本,再放量到全量
先验证后放量
这 20 条看起来对。字段抽查没问题,去重也正常。
现在放量到目标规模,过程中如果遇到访问限制就降速重试,
最后告诉我一共采到多少条、有没有遗漏或异常。
✓ 你刚刚学会的 采集不是"人肉搜",而是设计方案 → 做成脚本 → 小样验证 → 放量全采 → 存成结构化表。这套流程一旦搭好,下次换个产品换个关键词,改两个参数就能重跑——这就是专业和业余的差距。
规模大到一次跑不完怎么办 上千条采集 + 后续分析,会超出一次对话的处理量。专业做法是分批、并行:让 AI 把任务切成多批分头处理(Claude Code 支持把活分给多个"子任务"并行跑),再汇总。第 5、9 讲会深入这个"化整为零再合并"的思路。

这一讲记住什么