问题域/PD-358

多模态处理

Multi-Modal Processing

处理文本、图像、视频等多模态输入的统一管道,包括预处理、编码、上下文拼接

子问题

1.图像分辨率自适应

2.多模态token拼接

3.坐标系映射

4.视觉token计算

5.训练时无图样本的占位图像注入

6.连续 image_pad token 压缩以节省上下文

7.多 GPU padding 对齐与裁剪

各项目的解法1 solutions

Signals

横向对比

维度VRAG
图像预处理双范围像素约束 sqrt 等比缩放,三层独立 process_image
坐标系映射encoder→raw 线性比例映射 + padding 容错 + boundary clamp
多图拼接增量式 torch.cat 追加 pixel_values 和 image_grid_thw
视觉token计算grid_thw.prod() // merge_size² 动态计算,placeholder 两阶段替换
位置编码M-RoPE 3D position_ids (temporal, height, width) 专用 get_rope_index
训练适配noisy image padding 注入黑色占位图保证 batch 维度一致

最佳实践

1.统一的像素范围约束避免OOM,动态计算vision token数量

2.bbox 裁剪后重新调用 process_image 确保像素范围合规

3.增量拼接 pixel_values 而非每轮重建避免重复计算