讨论数据&APINMPA 1.5M 备案号穷举的 7 端口并发策略 + 验证码处理实战
客户案例 / 数据&APICosDev 已交付

NMPA 1.5M 备案号穷举的 7 端口并发策略 + 验证码处理实战

@张工L2 信任用户
质量经理 · 5 年经验 · 主攻合规自检 / 安评 / 标签生成
2 小时前 发布5614 浏览 · 3 回复

分享下我们维护 14 个月 0 人工干预的 NMPA 采集器架构,给做类似采集的同行参考。

架构核心

  • 生产者-消费者:探测进程穷举 BABH 备案号,写队列;抓取进程消费
  • 7 端口(7401-7415)独立 Chrome 实例,各自 IP 段
  • 看门狗每 2 分钟巡检

关键决策

  1. 不能用纯 HTTP:NMPA 有 JS 反爬 + 行为指纹,必须真 Chrome
  2. 图形验证码用阿里云 OCR,滑块用 PyAutoGUI 真实拖动(不是 JS 触发)
  3. 代理分时切换:白天住宅 IP / 夜间数据中心 IP
  4. 看门狗规则要"傻":所有阈值固定(15 分钟冻结 / 6 分钟宽限 / 2 分钟巡检),不要试图加自适应

量级

  • 累计 1,508,127 备案号入库
  • 日均增量 1,800-2,400 条
  • 反爬触发率 < 8%(全部由看门狗自动恢复)

失败教训

前 3 个月调过 4 次代理策略才稳定。教训:反爬对抗本质是技术博弈,先动手做 → 数据驱动调优。

如果你只是想用数据不想自己维护,CosDev NMPA API ¥3-8 万/年。

但如果团队对反爬技术感兴趣,欢迎深入交流。

3 条回复

按热度 ▾
林 IT 总监· 4 天前

14 个月 0 人工干预这个数据可信度真高。我们维护了 6 个月就崩了 3 次。看门狗这块设计是关键。

高研发副总· 3 天前

问下"代理分时切换"白天住宅 / 夜间数据中心是经过实测的吗?为什么 NMPA 反爬白天更严?

张工· 3 天前

@林 IT @高研发副总 两个问题:

看门狗设计

核心是所有阈值固定,不要自适应。我们试过自适应阈值(根据历史触发频次动态调整),结果反而更不稳定(边界 case 多)。固定阈值 + 简单逻辑 = 可预测的稳定性。

白天反爬严是实测

推测原因是 NMPA 监管系统在工作时间内有人工运维,会主动调整反爬策略。夜间相对宽松。我们用 24 小时滚动 7 天数据归纳出这个规律:

  • 9:00-18:00 反爬触发率 12-18%
  • 19:00-08:00 反爬触发率 2-5%

所以白天用住宅 IP(成本高但稳)+ 夜间用数据中心 IP(便宜量大)。

你的回复

B  I  S  ¶  </>  »  •  ☷  🔗  📎
草稿自动保存于 30 秒前