问题域/PD-381

多模态推理

Multimodal Inference

统一处理文本、图像、音频、视频等多模态输入的推理框架

子问题

1.多模态输入预处理管道

2.encoder预算控制

3.多模态缓存策略

4.encoder-decoder架构支持

5.跨进程(P0/P1)多模态缓存一致性维护

6.placeholder token与encoder embedding的精确位置对齐

7.多模态内容寻址哈希的FIPS合规性

8.embedding-only模态(预计算嵌入)的旁路处理

各项目的解法1 solutions

Signals

横向对比

维度vLLM
注册方式装饰器绑定模型类,工厂三件套延迟构建
预算控制双维度 encoder_compute + cache_size 取 min
缓存策略三级自适应:ProcessorOnly / LRU-IPC / ShmObjectStore
模态扩展TypeAlias 类型别名 + ModalityDataItems 泛型基类
placeholder对齐PlaceholderRange + is_embed 掩码精确控制嵌入位置
哈希算法blake3/sha256/sha512 可配置,支持 FIPS 合规
encoder缓存驱逐引用计数 + OrderedDict FIFO 惰性驱逐

最佳实践

1.使用MultiModalBudget控制encoder计算开销

2.通过registry统一注册多模态处理器

3.用装饰器将模型类与处理器工厂绑定实现零侵入注册

4.encoder缓存采用引用计数+惰性驱逐避免频繁内存操作

5.P0存元数据P1存张量数据减少IPC传输量

6.PlaceholderRange的is_embed掩码支持部分位置嵌入