问题域/PD-345

文档处理管线

Document Processing Pipeline

多阶段串联的文档解析管线设计,支持多后端路由和阶段组合

子问题

1.管线阶段编排

2.后端路由选择

3.中间结果传递

4.异步管线执行

5.多推理引擎统一适配(transformers/vllm/lmdeploy/mlx/http)

6.VRAM 自适应批处理倍率计算

7.分辨率分组 padding 批处理

8.PDF 智能分类(txt/ocr 自动判断)

各项目的解法1 solutions

Signals

横向对比

维度MinerU
管线架构pipeline/vlm/hybrid 三后端字符串前缀路由,共享 PDF 加载和输出格式化
阶段编排BatchAnalyze 可调用类串联 8 种原子模型,按 layout→formula→table→OCR 固定顺序
后端路由do_parse() 按 backend 字符串前缀分发,支持 auto-engine 自动检测推理引擎
模型管理三层 Singleton(VLM/Pipeline/Atom),按参数元组缓存,避免重复加载
批处理策略VRAM 自适应 batch_ratio + 64px 步长分辨率分组 padding
异步支持VLM 和 hybrid 后端提供 sync/async 双 API,pipeline 仅 sync

最佳实践

1.通过backend参数统一路由不同处理管线

2.用 Singleton + 参数元组做模型缓存 key 避免重复加载

3.原子模型注册表按需懒加载减少初始化开销

4.按 64px 步长分辨率分组实现变尺寸图像批处理

5.环境变量覆盖机制为 C/S 分离部署提供灵活配置