客户案例 / 数据&APICosDev 已交付
NMPA 1.5M 备案号穷举的 7 端口并发策略 + 验证码处理实战
张
@张工L2 信任用户
质量经理 · 5 年经验 · 主攻合规自检 / 安评 / 标签生成
2 小时前 发布5614 浏览 · 3 回复
分享下我们维护 14 个月 0 人工干预的 NMPA 采集器架构,给做类似采集的同行参考。
架构核心
- 生产者-消费者:探测进程穷举 BABH 备案号,写队列;抓取进程消费
- 7 端口(7401-7415)独立 Chrome 实例,各自 IP 段
- 看门狗每 2 分钟巡检
关键决策
- 不能用纯 HTTP:NMPA 有 JS 反爬 + 行为指纹,必须真 Chrome
- 图形验证码用阿里云 OCR,滑块用 PyAutoGUI 真实拖动(不是 JS 触发)
- 代理分时切换:白天住宅 IP / 夜间数据中心 IP
- 看门狗规则要"傻":所有阈值固定(15 分钟冻结 / 6 分钟宽限 / 2 分钟巡检),不要试图加自适应
量级
- 累计 1,508,127 备案号入库
- 日均增量 1,800-2,400 条
- 反爬触发率 < 8%(全部由看门狗自动恢复)
失败教训
前 3 个月调过 4 次代理策略才稳定。教训:反爬对抗本质是技术博弈,先动手做 → 数据驱动调优。
如果你只是想用数据不想自己维护,CosDev NMPA API ¥3-8 万/年。
但如果团队对反爬技术感兴趣,欢迎深入交流。
3 条回复
按热度 ▾林
林 IT 总监· 4 天前
14 个月 0 人工干预这个数据可信度真高。我们维护了 6 个月就崩了 3 次。看门狗这块设计是关键。
高
高研发副总· 3 天前
问下"代理分时切换"白天住宅 / 夜间数据中心是经过实测的吗?为什么 NMPA 反爬白天更严?
张
张工· 3 天前
@林 IT @高研发副总 两个问题:
看门狗设计
核心是所有阈值固定,不要自适应。我们试过自适应阈值(根据历史触发频次动态调整),结果反而更不稳定(边界 case 多)。固定阈值 + 简单逻辑 = 可预测的稳定性。
白天反爬严是实测
推测原因是 NMPA 监管系统在工作时间内有人工运维,会主动调整反爬策略。夜间相对宽松。我们用 24 小时滚动 7 天数据归纳出这个规律:
- 9:00-18:00 反爬触发率 12-18%
- 19:00-08:00 反爬触发率 2-5%
所以白天用住宅 IP(成本高但稳)+ 夜间用数据中心 IP(便宜量大)。
你的回复
B I S ¶ </> » • ☷ 🔗 📎
草稿自动保存于 30 秒前