原料商 TDS / MSDS 一键 AI 解析
Gemini Vision 提取 PDF 字段 → 结构化入 INCI 主数据,588 个 PDF 5 天处理完
FDA VCRP 用量数据自动化 ETL
某品牌方法规合规咨询团队(服务 5 个出海化妆品品牌)
FDA VCRP(Voluntary Cosmetic Registration Program)发布的化妆品用量数据是美国市场最权威的成分使用频率数据,但 FDA 只发 PDF 报告,没有 API;546 份报告 47K+ 条用量数据,靠人工提取每份报告 2-3 小时
Gemini Lite Vision 批量解析(成本省 70%)+ Python 正则规则二次校验 + PG 入库 + 89 份"无表格报告"人工 review
VCRP 数据是化妆品行业做"成分使用频率"分析的金标准。例如某品牌想推一款新成分的产品,要知道这个成分在美国市场被多少产品使用、平均浓度区间、对应品类(面霜 / 精华 / 洁面)。这些数据 FDA 公开但只发 PDF。 之前的解法是外包给印度团队人工抄录,每份报告报价 $80-120,546 份算下来 ¥30 万 + 错率 5-8%。客户决定改用 AI 提取,找到 CosDev 是因为我们做过类似的 TDS / MSDS 提取。
总工期 3 周。 第 1 周|PDF 类型分析 + 提取策略。546 份 VCRP 报告分两类:① 标准表格型(457 份,含明确的"成分 / 用量 / 报告产品数"三列表格),用 Vision 提取效率高;② 非表格描述型(89 份,用段落描述),Vision 提取容易丢字段,决定走"先 Vision 看大致轮廓 + 人工补充"。 第 1 周后段|Lite 模型可行性验证。最初想用 gemini_model(高级版),单份成本约 $0.18。换成 gemini_lite_model 后单份成本 $0.05,但准确率降到 76%。我们不用 Lite 默认 prompt,而是把 prompt 写到工程级精度:① 严格要求 JSON 字段名(含拼写);② 禁止编造("如表格中无此字段则返回 null,不允许推断");③ 浓度字段必须是 PDF 原文复制(不能改写);④ 报告产品数必须是整数。重写 prompt 后 Lite 准确率回到 89%。 第 2 周|批量解析 + 双重验证。Batch API 提交 457 份标准表格型,跑了 22 小时(含 3 次失败重试)。提取后做 Python 正则二次校验:① 浓度字段必须能在 PDF 原文找到字符串(防 LLM 编造);② 总产品数必须等于各品类产品数之和(数学一致性);③ 成分名走 match_names 归一对齐 bse_inci。 第 3 周前 3 天|89 份非表格报告人工 review。我们把 Vision 输出 + PDF 原文摆在一起,用一个简单的 React 表单工具让法规专家陈丽快速核对(接受 / 拒绝 / 修改)。每份平均 8 分钟,3 天完成。 第 3 周后 4 天|数据入 PG(pub_vcrp_usage 表)+ 输出 API 给客户系统调用。
上线 4 个月: · 47,186 条用量数据入库,覆盖 546 份报告 · 自动化部分准确率 92%(Vision + 规则) · 89 份无表格报告全部确认 · 总成本 ¥9.5 万(Lite 模型 + 人工 review),对比外包 ¥30 万 + 5-8% 错率,节省 68% · 数据被客户的 5 个出海品牌内部用于:① 新品成分趋势分析;② 申报安评报告时引用 VCRP 数据作为"美国市场使用历史"佐证 · 后续每年 FDA 更新 VCRP 时,CosDev 提供 ¥2 万/次的增量更新服务
Lite 模型成本省 70%,但要求 prompt 写得更死。这个项目让团队总结出"Lite 模型 prompt 工程"的几条原则:① 字段定义必须比 Pro 模型更明确(Pro 能理解 "estimate" 之类的模糊指令,Lite 不能);② 禁止编造的指令必须重复 3 次(Lite 容易"自作主张"补缺失字段);③ 输出格式约束必须可机器验证(用 JSON Schema 不用自然语言描述)。这套经验后来被复用到所有 Vision 提取项目。
「Vision 提取用 Lite 模型不亏,前提是你愿意把 prompt 写到工程级精度。」
Gemini Vision 提取 PDF 字段 → 结构化入 INCI 主数据,588 个 PDF 5 天处理完
NMPA / EU 1223 / MoCRA 三套法规并发校验 + SAP 工单回写
3,151 子成分 → 2,988 匹配 INCI 主数据,165 待人工确认