案例 · 法规数据 · 已交付

VCRP 47K 用量数据自动 ETL

FDA VCRP 用量数据自动化 ETL

交付状态

已交付

工期

3 周

预算区间

¥9.5 万

客户类型

品牌合规咨询

客户

某品牌方法规合规咨询团队（服务 5 个出海化妆品品牌）

挑战

FDA VCRP（Voluntary Cosmetic Registration Program）发布的化妆品用量数据是美国市场最权威的成分使用频率数据，但 FDA 只发 PDF 报告，没有 API；546 份报告 47K+ 条用量数据，靠人工提取每份报告 2-3 小时

方案

Gemini Lite Vision 批量解析（成本省 70%）+ Python 正则规则二次校验 + PG 入库 + 89 份"无表格报告"人工 review

项目复盘

3 周里我们做了这些

背景

VCRP 数据是化妆品行业做"成分使用频率"分析的金标准。例如某品牌想推一款新成分的产品，要知道这个成分在美国市场被多少产品使用、平均浓度区间、对应品类（面霜 / 精华 / 洁面）。这些数据 FDA 公开但只发 PDF。之前的解法是外包给印度团队人工抄录，每份报告报价 $80-120，546 份算下来 ¥30 万 + 错率 5-8%。客户决定改用 AI 提取，找到 CosDev 是因为我们做过类似的 TDS / MSDS 提取。

我们做了什么

总工期 3 周。第 1 周｜PDF 类型分析 + 提取策略。546 份 VCRP 报告分两类：① 标准表格型（457 份，含明确的"成分 / 用量 / 报告产品数"三列表格），用 Vision 提取效率高；② 非表格描述型（89 份，用段落描述），Vision 提取容易丢字段，决定走"先 Vision 看大致轮廓 + 人工补充"。第 1 周后段｜Lite 模型可行性验证。最初想用 gemini_model（高级版），单份成本约 $0.18。换成 gemini_lite_model 后单份成本 $0.05，但准确率降到 76%。我们不用 Lite 默认 prompt，而是把 prompt 写到工程级精度：① 严格要求 JSON 字段名（含拼写）；② 禁止编造（"如表格中无此字段则返回 null，不允许推断"）；③ 浓度字段必须是 PDF 原文复制（不能改写）；④ 报告产品数必须是整数。重写 prompt 后 Lite 准确率回到 89%。第 2 周｜批量解析 + 双重验证。Batch API 提交 457 份标准表格型，跑了 22 小时（含 3 次失败重试）。提取后做 Python 正则二次校验：① 浓度字段必须能在 PDF 原文找到字符串（防 LLM 编造）；② 总产品数必须等于各品类产品数之和（数学一致性）；③ 成分名走 match_names 归一对齐 bse_inci。第 3 周前 3 天｜89 份非表格报告人工 review。我们把 Vision 输出 + PDF 原文摆在一起，用一个简单的 React 表单工具让法规专家陈丽快速核对（接受 / 拒绝 / 修改）。每份平均 8 分钟，3 天完成。第 3 周后 4 天｜数据入 PG（pub_vcrp_usage 表）+ 输出 API 给客户系统调用。

数据结果

上线 4 个月： · 47,186 条用量数据入库，覆盖 546 份报告 · 自动化部分准确率 92%（Vision + 规则） · 89 份无表格报告全部确认 · 总成本 ¥9.5 万（Lite 模型 + 人工 review），对比外包 ¥30 万 + 5-8% 错率，节省 68% · 数据被客户的 5 个出海品牌内部用于：① 新品成分趋势分析；② 申报安评报告时引用 VCRP 数据作为"美国市场使用历史"佐证 · 后续每年 FDA 更新 VCRP 时，CosDev 提供 ¥2 万/次的增量更新服务

复盘 · 哪里做得不够

Lite 模型成本省 70%，但要求 prompt 写得更死。这个项目让团队总结出"Lite 模型 prompt 工程"的几条原则：① 字段定义必须比 Pro 模型更明确（Pro 能理解 "estimate" 之类的模糊指令，Lite 不能）；② 禁止编造的指令必须重复 3 次（Lite 容易"自作主张"补缺失字段）；③ 输出格式约束必须可机器验证（用 JSON Schema 不用自然语言描述）。这套经验后来被复用到所有 Vision 提取项目。