讨论数据&API自跑 Sephora 评论采集,有什么坑要避?
客户案例 / 数据&APICosDev 待回复

自跑 Sephora 评论采集,有什么坑要避?

@刘 D2CL0 信任用户
质量经理 · 5 年经验 · 主攻合规自检 / 安评 / 标签生成
2 小时前 发布893 浏览 · 3 回复

团队有个工程师想自己写 Sephora 采集(US + SG 两站),不打算买现成 API。

看了一些教程都比较老,听说 Sephora 反爬升级了不少。求踩过坑的同学说说:

  1. 评论数据走 API 还是 DOM?
  2. SG 站的 review schema 跟 US 不一样?
  3. 反爬是按 IP 限流还是行为指纹?
  4. 大概什么规模会触发"封号"

业务量:每周抓 200 个 SKU 的全部评论。

3 条回复

按热度 ▾
陈研发· 6 小时前

我们小团队也试过自跑 Sephora US,2 周后放弃了。最后买了第三方 API。维护成本远超过买的钱。

高研发副总· 5 小时前

楼上+1。"自跑"在初期看起来省钱,长期算 TCO(要 1 个工程师月维护,月薪 $4K USD)远超过买 API。

张工官方回复· 2 小时前

我们维护 34 站点采集器舰队(含 Sephora US/SG/HK),分享几个具体的坑:

1. 评论数据接口

Sephora 的评论数据接 BV (Bazaarvoice) 第三方 API,不是直接 DOM。这意味着你抓 DOM 抓不全(lazy load 一次只 8 条)。直接命中 BV 的 endpoint 反而稳定(但要破对方的 token)。

2. SG 站的 review schema 不一样

SG 站没有 helpful_votes 字段;rating 单位也是 1-5(US 是 1-5 但有些字段是 0-100),别让 fixture 写死。最坑的是 SG 站没有 review badge DOM——这不是反爬,是产品上没做这个 UI,前期我们以为是反爬调试了 2 周。

3. 反爬

按行为指纹为主(IP 限流是兜底)。常规 Playwright 流量很容易识别。我们走纯 HTTP + Cookie Pool 反而稳。

4. 你的量级

200 SKU × 全部评论 ≈ 大几千条/周,单 IP 完全够用。但要注意 Sephora 偶尔出 captcha 页面,要写好降级逻辑(先解 captcha 再继续,不要硬重试)。

如果想省事直接用我们的 API(评论数据按调用量计费 ¥0.05/条),月 6,000 条 ≈ ¥300。比自己维护合算。

你的回复

B  I  S  ¶  </>  »  •  ☷  🔗  📎
草稿自动保存于 30 秒前