自跑 Sephora 评论采集,有什么坑要避?
团队有个工程师想自己写 Sephora 采集(US + SG 两站),不打算买现成 API。
看了一些教程都比较老,听说 Sephora 反爬升级了不少。求踩过坑的同学说说:
- 评论数据走 API 还是 DOM?
- SG 站的 review schema 跟 US 不一样?
- 反爬是按 IP 限流还是行为指纹?
- 大概什么规模会触发"封号"
业务量:每周抓 200 个 SKU 的全部评论。
3 条回复
按热度 ▾我们小团队也试过自跑 Sephora US,2 周后放弃了。最后买了第三方 API。维护成本远超过买的钱。
楼上+1。"自跑"在初期看起来省钱,长期算 TCO(要 1 个工程师月维护,月薪 $4K USD)远超过买 API。
我们维护 34 站点采集器舰队(含 Sephora US/SG/HK),分享几个具体的坑:
1. 评论数据接口
Sephora 的评论数据接 BV (Bazaarvoice) 第三方 API,不是直接 DOM。这意味着你抓 DOM 抓不全(lazy load 一次只 8 条)。直接命中 BV 的 endpoint 反而稳定(但要破对方的 token)。
2. SG 站的 review schema 不一样
SG 站没有 helpful_votes 字段;rating 单位也是 1-5(US 是 1-5 但有些字段是 0-100),别让 fixture 写死。最坑的是 SG 站没有 review badge DOM——这不是反爬,是产品上没做这个 UI,前期我们以为是反爬调试了 2 周。
3. 反爬
按行为指纹为主(IP 限流是兜底)。常规 Playwright 流量很容易识别。我们走纯 HTTP + Cookie Pool 反而稳。
4. 你的量级
200 SKU × 全部评论 ≈ 大几千条/周,单 IP 完全够用。但要注意 Sephora 偶尔出 captcha 页面,要写好降级逻辑(先解 captcha 再继续,不要硬重试)。
如果想省事直接用我们的 API(评论数据按调用量计费 ¥0.05/条),月 6,000 条 ≈ ¥300。比自己维护合算。