多模态处理
Multi-Modal Processing
处理文本、图像、视频等多模态输入的统一管道,包括预处理、编码、上下文拼接
子问题
1.图像分辨率自适应
2.多模态token拼接
3.坐标系映射
4.视觉token计算
5.训练时无图样本的占位图像注入
6.连续 image_pad token 压缩以节省上下文
7.多 GPU padding 对齐与裁剪
各项目的解法1 solutions
Signals
横向对比
| 维度 | VRAG |
|---|---|
| 图像预处理 | 双范围像素约束 sqrt 等比缩放,三层独立 process_image |
| 坐标系映射 | encoder→raw 线性比例映射 + padding 容错 + boundary clamp |
| 多图拼接 | 增量式 torch.cat 追加 pixel_values 和 image_grid_thw |
| 视觉token计算 | grid_thw.prod() // merge_size² 动态计算,placeholder 两阶段替换 |
| 位置编码 | M-RoPE 3D position_ids (temporal, height, width) 专用 get_rope_index |
| 训练适配 | noisy image padding 注入黑色占位图保证 batch 维度一致 |
最佳实践
1.统一的像素范围约束避免OOM,动态计算vision token数量
2.bbox 裁剪后重新调用 process_image 确保像素范围合规
3.增量拼接 pixel_values 而非每轮重建避免重复计算