多语言检测

Multilingual Detection

自动语言检测与多语言OCR路由，支持30+语言族

子问题

1.自动语言识别

2.OCR模型路由

3.编码异常处理

4.语言族映射

5.设备感知的模型自动降级

6.VLM OCR 与传统 OCR 的语言条件切换

7.段落级语言检测驱动排版规则

Signals

维度	MinerU
检测方法	fast_langdetect (FastText) 段落级自动检测 + API lang 参数文档级指定
语言覆盖	16 个 OCR 模型槽位覆盖 100+ 语言，五大语言族归并
模型路由	YAML 配置驱动 lang→(det,rec,dict) 三件套路由
编码防御	UTF-16 代理对清除 + Unicode 控制字符过滤 + 双层 try-except
设备适配	CPU 自动降级 ch→ch_lite，GPU 显存分级 batch_ratio
缓存策略	双层 Singleton 按 (lang, formula, table) 缓存模型实例

1.集成fast_langdetect实现零配置语言自动检测

2.YAML 配置解耦语言到模型映射，新增语言只改配置不改代码

3.双层 Singleton 按语言缓存 OCR 模型实例避免重复加载

4.CPU 环境自动降级到轻量模型保证响应速度