自跑 Sephora 评论采集，有什么坑要避？

刘

@刘 D2CL0 信任用户

质量经理 · 5 年经验 · 主攻合规自检 / 安评 / 标签生成

2026/5/5 发布896 浏览 · 3 回复

团队有个工程师想自己写 Sephora 采集（US + SG 两站），不打算买现成 API。

看了一些教程都比较老，听说 Sephora 反爬升级了不少。求踩过坑的同学说说：

业务量：每周抓 200 个 SKU 的全部评论。

3 条回复

按热度 ▾

陈

陈研发· 2026/5/4

我们小团队也试过自跑 Sephora US，2 周后放弃了。最后买了第三方 API。维护成本远超过买的钱。

高

高研发副总· 2026/5/4

楼上+1。"自跑"在初期看起来省钱，长期算 TCO（要 1 个工程师月维护，月薪 $4K USD）远超过买 API。

张

张工官方回复· 2026/5/5

我们维护 34 站点采集器舰队（含 Sephora US/SG/HK），分享几个具体的坑：

Sephora 的评论数据接 BV (Bazaarvoice) 第三方 API，不是直接 DOM。这意味着你抓 DOM 抓不全（lazy load 一次只 8 条）。直接命中 BV 的 endpoint 反而稳定（但要破对方的 token）。

SG 站没有 helpful_votes 字段；rating 单位也是 1-5（US 是 1-5 但有些字段是 0-100），别让 fixture 写死。最坑的是 SG 站没有 review badge DOM——这不是反爬，是产品上没做这个 UI，前期我们以为是反爬调试了 2 周。

按行为指纹为主（IP 限流是兜底）。常规 Playwright 流量很容易识别。我们走纯 HTTP + Cookie Pool 反而稳。

200 SKU × 全部评论 ≈ 大几千条/周，单 IP 完全够用。但要注意 Sephora 偶尔出 captcha 页面，要写好降级逻辑（先解 captcha 再继续，不要硬重试）。

如果想省事直接用我们的 API（评论数据按调用量计费 ¥0.05/条），月 6,000 条 ≈ ¥300。比自己维护合算。

B I S ¶ </> » • ☷ 🔗 📎

草稿自动保存于 30 秒前