问题域/PD-345

文档处理管线

Document Processing Pipeline

多阶段串联的文档解析管线设计，支持多后端路由和阶段组合

子问题

1.管线阶段编排

2.后端路由选择

3.中间结果传递

4.异步管线执行

5.多推理引擎统一适配（transformers/vllm/lmdeploy/mlx/http）

6.VRAM 自适应批处理倍率计算

7.分辨率分组 padding 批处理

8.PDF 智能分类（txt/ocr 自动判断）

各项目的解法1 solutions

Signals

横向对比

维度	MinerU
管线架构	pipeline/vlm/hybrid 三后端字符串前缀路由，共享 PDF 加载和输出格式化
阶段编排	BatchAnalyze 可调用类串联 8 种原子模型，按 layout→formula→table→OCR 固定顺序
后端路由	do_parse() 按 backend 字符串前缀分发，支持 auto-engine 自动检测推理引擎
模型管理	三层 Singleton（VLM/Pipeline/Atom），按参数元组缓存，避免重复加载
批处理策略	VRAM 自适应 batch_ratio + 64px 步长分辨率分组 padding
异步支持	VLM 和 hybrid 后端提供 sync/async 双 API，pipeline 仅 sync

最佳实践

1.通过backend参数统一路由不同处理管线

2.用 Singleton + 参数元组做模型缓存 key 避免重复加载

3.原子模型注册表按需懒加载减少初始化开销

4.按 64px 步长分辨率分组实现变尺寸图像批处理

5.环境变量覆盖机制为 C/S 分离部署提供灵活配置