多语言检测
Multilingual Detection
自动语言检测与多语言OCR路由,支持30+语言族
子问题
1.自动语言识别
2.OCR模型路由
3.编码异常处理
4.语言族映射
5.设备感知的模型自动降级
6.VLM OCR 与传统 OCR 的语言条件切换
7.段落级语言检测驱动排版规则
各项目的解法1 solutions
Signals
横向对比
| 维度 | MinerU |
|---|---|
| 检测方法 | fast_langdetect (FastText) 段落级自动检测 + API lang 参数文档级指定 |
| 语言覆盖 | 16 个 OCR 模型槽位覆盖 100+ 语言,五大语言族归并 |
| 模型路由 | YAML 配置驱动 lang→(det,rec,dict) 三件套路由 |
| 编码防御 | UTF-16 代理对清除 + Unicode 控制字符过滤 + 双层 try-except |
| 设备适配 | CPU 自动降级 ch→ch_lite,GPU 显存分级 batch_ratio |
| 缓存策略 | 双层 Singleton 按 (lang, formula, table) 缓存模型实例 |
最佳实践
1.集成fast_langdetect实现零配置语言自动检测
2.YAML 配置解耦语言到模型映射,新增语言只改配置不改代码
3.双层 Singleton 按语言缓存 OCR 模型实例避免重复加载
4.CPU 环境自动降级到轻量模型保证响应速度