文档处理管线
Document Processing Pipeline
多阶段串联的文档解析管线设计,支持多后端路由和阶段组合
子问题
1.管线阶段编排
2.后端路由选择
3.中间结果传递
4.异步管线执行
5.多推理引擎统一适配(transformers/vllm/lmdeploy/mlx/http)
6.VRAM 自适应批处理倍率计算
7.分辨率分组 padding 批处理
8.PDF 智能分类(txt/ocr 自动判断)
各项目的解法1 solutions
Signals
横向对比
| 维度 | MinerU |
|---|---|
| 管线架构 | pipeline/vlm/hybrid 三后端字符串前缀路由,共享 PDF 加载和输出格式化 |
| 阶段编排 | BatchAnalyze 可调用类串联 8 种原子模型,按 layout→formula→table→OCR 固定顺序 |
| 后端路由 | do_parse() 按 backend 字符串前缀分发,支持 auto-engine 自动检测推理引擎 |
| 模型管理 | 三层 Singleton(VLM/Pipeline/Atom),按参数元组缓存,避免重复加载 |
| 批处理策略 | VRAM 自适应 batch_ratio + 64px 步长分辨率分组 padding |
| 异步支持 | VLM 和 hybrid 后端提供 sync/async 双 API,pipeline 仅 sync |
最佳实践
1.通过backend参数统一路由不同处理管线
2.用 Singleton + 参数元组做模型缓存 key 避免重复加载
3.原子模型注册表按需懒加载减少初始化开销
4.按 64px 步长分辨率分组实现变尺寸图像批处理
5.环境变量覆盖机制为 C/S 分离部署提供灵活配置