案例 · 跨境电商 · 持续运营

海外 34 站点电商情报 + 151 万备案聚合

34 站点产品 + 评论采集 · 151 万备案聚合

交付状态
持续运营
工期
24 周首版
预算区间
¥120 万 + 月度运维
客户类型
跨境品牌联盟
客户

海外品牌联盟(5 家欧美/日韩品牌共同出资)

挑战

跨境品牌想知道竞品在 Sephora US / Amazon JP / Ulta / Boots 的真实表现,但每个站点反爬规则、数据结构、上新节奏都不一样;之前外包给印度团队,3 个月给的是 Excel 截图,没法接入自动化

方案

34 站点统一采集器舰队 + 评论增量同步 + 与 NMPA 151 万备案库交叉关联,输出"全球品牌指纹"

项目复盘

24 周首版 里我们做了这些

背景

联盟里的 5 家品牌过去用过 3 家"全球电商情报"服务商(含两家美国上市公司)。共同问题是:报告好看但底层数据不开放,发现一个有趣的"日韩 25-30 岁人群偏爱含 X 成分的产品"洞察后,没法回到原始评论 SKU 验证。 联盟决定共建数据底座,CosDev 2024 Q4 中标。基础需求很硬:评论必须可下载、SKU 必须可搜、上新可以打 webhook、所有站点必须保持 30 天内的全量更新节奏。

我们做了什么

第 1–4 周|站点优先级排序与 schema 探针。先用 6 个工程师每人 2 站点跑探针:抓首屏 + 详情页 + 评论页 HTML,对比 4 周内变化,确认哪些字段稳定、哪些是 A/B 实验。我们用这一轮淘汰了 3 个本来要做的小站点(Cult Beauty、Fenty、Glossier 官网)— 反爬强且数据稀薄。 第 5–10 周|反爬基础设施。Cookie Pool(30+ 真人手工种子 + 自动续期)+ 7 站点共享代理池(住宅 IP 按地区切换)+ 每站点独立的 retry / backoff 策略。Amazon 走 Playwright 隐身模式,Sephora 走纯 HTTP(其反爬主要在 JS 检测,绕开浏览器反而稳)。 第 11–18 周|34 站点逐个落地。一个工程师同时维护 4-6 站点,每周交付 2 个新站点。每站点必交付:产品列表 / 详情 / 评论三件套 + 失败记录回放工具 + Grafana 看板(请求量 / 反爬率 / 数据延迟)。 第 19–22 周|数据侧。500K 产品全量入 PG,10M 评论增量目标,按 SKU 维度去重。NMPA 1.5M 备案做 fuzzy match 匹配同款产品的中外注册名,命中率 67%(这一步意外地让客户发现 30+ "海外热销但没在中国注册"的潜在引进机会)。 第 23–24 周|双轨交付:API(按调用量计费给联盟成员)+ 月度 PDF 洞察报告(联盟运营方接手二次分发)。

数据结果

运营至今 14 个月: · 34 站点稳定运行,反爬触发率 < 12%(合理水位) · 500,127 产品入库,10M 评论目标达成(实际 11.4M) · 每周增量 2-3 万条产品 + 30-50 万条评论 · 联盟成员 5 家全部续约第二年 · 衍生 11 家"非联盟订阅"客户(按 API 调用量计费),月均收入覆盖运维成本 3 倍以上

复盘 · 哪里做得不够

前 3 个月最大的失误:低估了 Sephora SG 没有 review badge DOM 这件事,团队反复探测以为是反爬,实际是 SG 站本身就没这个 UI 元素(产品经理在内部 Slack 聊天记录里有提到,但我们没问到这一层)。后总结:每个站点 schema 探针阶段必须问"这个 UI 是产品决策还是反爬伪装",不能只看 DOM。

一开始我们以为最难的是反爬,做下来发现最难的是字段映射 —— 每个站点的 review 数据 schema 都不一样,连 rating 是 1-5 还是 1-10 都得每站点单独 mapping。
CosDev · 周伟
技术栈
PlaywrightPyAutoGUIasyncioPostgreSQLOSSWatchdogCookie Pool

想做类似的项目?

把你的情境告诉我们,48 小时内给到初步方案 + 报价区间。