案例 · 跨境电商 · 持续运营

海外 34 站点电商情报 + 151 万备案聚合

34 站点产品 + 评论采集 · 151 万备案聚合

交付状态

持续运营

工期

24 周首版

预算区间

¥120 万 + 月度运维

客户类型

跨境品牌联盟

客户

海外品牌联盟（5 家欧美/日韩品牌共同出资）

挑战

跨境品牌想知道竞品在 Sephora US / Amazon JP / Ulta / Boots 的真实表现，但每个站点反爬规则、数据结构、上新节奏都不一样；之前外包给印度团队，3 个月给的是 Excel 截图，没法接入自动化

方案

34 站点统一采集器舰队 + 评论增量同步 + 与 NMPA 151 万备案库交叉关联，输出"全球品牌指纹"

项目复盘

24 周首版里我们做了这些

背景

联盟里的 5 家品牌过去用过 3 家"全球电商情报"服务商（含两家美国上市公司）。共同问题是：报告好看但底层数据不开放，发现一个有趣的"日韩 25-30 岁人群偏爱含 X 成分的产品"洞察后，没法回到原始评论 SKU 验证。联盟决定共建数据底座，CosDev 2024 Q4 中标。基础需求很硬：评论必须可下载、SKU 必须可搜、上新可以打 webhook、所有站点必须保持 30 天内的全量更新节奏。

我们做了什么

第 1–4 周｜站点优先级排序与 schema 探针。先用 6 个工程师每人 2 站点跑探针：抓首屏 + 详情页 + 评论页 HTML，对比 4 周内变化，确认哪些字段稳定、哪些是 A/B 实验。我们用这一轮淘汰了 3 个本来要做的小站点（Cult Beauty、Fenty、Glossier 官网）— 反爬强且数据稀薄。第 5–10 周｜反爬基础设施。Cookie Pool（30+ 真人手工种子 + 自动续期）+ 7 站点共享代理池（住宅 IP 按地区切换）+ 每站点独立的 retry / backoff 策略。Amazon 走 Playwright 隐身模式，Sephora 走纯 HTTP（其反爬主要在 JS 检测，绕开浏览器反而稳）。第 11–18 周｜34 站点逐个落地。一个工程师同时维护 4-6 站点，每周交付 2 个新站点。每站点必交付：产品列表 / 详情 / 评论三件套 + 失败记录回放工具 + Grafana 看板（请求量 / 反爬率 / 数据延迟）。第 19–22 周｜数据侧。500K 产品全量入 PG，10M 评论增量目标，按 SKU 维度去重。NMPA 1.5M 备案做 fuzzy match 匹配同款产品的中外注册名，命中率 67%（这一步意外地让客户发现 30+ "海外热销但没在中国注册"的潜在引进机会）。第 23–24 周｜双轨交付：API（按调用量计费给联盟成员）+ 月度 PDF 洞察报告（联盟运营方接手二次分发）。

数据结果

运营至今 14 个月： · 34 站点稳定运行，反爬触发率 < 12%（合理水位） · 500,127 产品入库，10M 评论目标达成（实际 11.4M） · 每周增量 2-3 万条产品 + 30-50 万条评论 · 联盟成员 5 家全部续约第二年 · 衍生 11 家"非联盟订阅"客户（按 API 调用量计费），月均收入覆盖运维成本 3 倍以上

复盘 · 哪里做得不够

前 3 个月最大的失误：低估了 Sephora SG 没有 review badge DOM 这件事，团队反复探测以为是反爬，实际是 SG 站本身就没这个 UI 元素（产品经理在内部 Slack 聊天记录里有提到，但我们没问到这一层）。后总结：每个站点 schema 探针阶段必须问"这个 UI 是产品决策还是反爬伪装"，不能只看 DOM。