多模态推理
Multimodal Inference
统一处理文本、图像、音频、视频等多模态输入的推理框架
子问题
1.多模态输入预处理管道
2.encoder预算控制
3.多模态缓存策略
4.encoder-decoder架构支持
5.跨进程(P0/P1)多模态缓存一致性维护
6.placeholder token与encoder embedding的精确位置对齐
7.多模态内容寻址哈希的FIPS合规性
8.embedding-only模态(预计算嵌入)的旁路处理
各项目的解法1 solutions
Signals
横向对比
| 维度 | vLLM |
|---|---|
| 注册方式 | 装饰器绑定模型类,工厂三件套延迟构建 |
| 预算控制 | 双维度 encoder_compute + cache_size 取 min |
| 缓存策略 | 三级自适应:ProcessorOnly / LRU-IPC / ShmObjectStore |
| 模态扩展 | TypeAlias 类型别名 + ModalityDataItems 泛型基类 |
| placeholder对齐 | PlaceholderRange + is_embed 掩码精确控制嵌入位置 |
| 哈希算法 | blake3/sha256/sha512 可配置,支持 FIPS 合规 |
| encoder缓存驱逐 | 引用计数 + OrderedDict FIFO 惰性驱逐 |
最佳实践
1.使用MultiModalBudget控制encoder计算开销
2.通过registry统一注册多模态处理器
3.用装饰器将模型类与处理器工厂绑定实现零侵入注册
4.encoder缓存采用引用计数+惰性驱逐避免频繁内存操作
5.P0存元数据P1存张量数据减少IPC传输量
6.PlaceholderRange的is_embed掩码支持部分位置嵌入