问题域/PD-351

批处理优化

Batch Processing Optimization

按分辨率分组的智能批处理策略,根据硬件资源自适应调整batch size

子问题

1.分辨率分组策略

2.动态batch size推断

3.padding对齐

4.显存感知调度

5.多模型差异化 BASE_BATCH_SIZE 协调

6.PyTorch 版本兼容性导致的批处理降级

7.多计算设备(CUDA/NPU/MPS/GCU/MUSA/MLU/SDAA)显存获取统一

各项目的解法1 solutions

Signals

横向对比

维度MinerU
分组策略stride=64 分辨率桶分组,同桶内白色 padding 对齐
动态batch推断阶梯式 VRAM→ratio 映射(1/2/4/8/16x),环境变量可覆盖
显存管理阶段间条件性 clean_vram(≤8GB 触发),7 种计算设备适配
排序优化MFR 按公式面积升序排序,batch_size 限制为 2 的幂
降级机制np.stack 失败回退逐张处理,PyTorch 2.8+ 自动禁用批 OCR-det
多模型协调6 个模型独立 BASE_BATCH_SIZE,ratio 统一乘数

最佳实践

1.根据GPU显存自动推断batch_ratio实现资源最优利用

2.面积排序后分批减少 padding 浪费,batch_size 限制为 2 的幂避免尾部低效

3.np.stack 失败自动回退逐张处理保证鲁棒性

4.阶段间条件性显存回收仅在低显存设备触发避免高显存浪费