多模态处理

Multi-Modal Processing

处理文本、图像、视频等多模态输入的统一管道，包括预处理、编码、上下文拼接

子问题

1.图像分辨率自适应

2.多模态token拼接

3.坐标系映射

4.视觉token计算

5.训练时无图样本的占位图像注入

6.连续 image_pad token 压缩以节省上下文

7.多 GPU padding 对齐与裁剪

Signals

维度	VRAG
图像预处理	双范围像素约束 sqrt 等比缩放，三层独立 process_image
坐标系映射	encoder→raw 线性比例映射 + padding 容错 + boundary clamp
多图拼接	增量式 torch.cat 追加 pixel_values 和 image_grid_thw
视觉token计算	grid_thw.prod() // merge_size² 动态计算，placeholder 两阶段替换
位置编码	M-RoPE 3D position_ids (temporal, height, width) 专用 get_rope_index
训练适配	noisy image padding 注入黑色占位图保证 batch 维度一致

1.统一的像素范围约束避免OOM，动态计算vision token数量

2.bbox 裁剪后重新调用 process_image 确保像素范围合规

3.增量拼接 pixel_values 而非每轮重建避免重复计算