问题域/PD-360

向量索引与嵌入

Vector Indexing & Embedding

多模态向量嵌入与索引系统,支持增量构建、多模型切换和高效检索

子问题

1.嵌入模型统一抽象

2.索引增量更新

3.多语料库合并

4.多模态嵌入对齐

5.多向量与单向量嵌入的存储与检索差异处理

6.视频帧采样率对嵌入质量的影响控制

7.双引擎(精排+召回)的协调与选择策略

各项目的解法1 solutions

Signals

横向对比

维度VRAG
嵌入模型抽象VL_Embedding 继承 LlamaIndex MultiModalEmbedding,模型名前缀路由 ColQwen2/ColPali/OpenBMB
索引增量更新三件套断点续建:uid/path 集合去重 + save_interval 周期保存
多语料库合并FAISS merge_from 原生合并 + ntotal 三重一致性断言
多模态嵌入对齐双引擎:ColQwen2 多向量精排 + GVE 单向量召回,文件后缀自动路由模态
索引类型IndexFlatIP 精确内积,无 ANN 近似
服务化方式双 FastAPI 服务分别暴露 ColQwen2 和 GVE 搜索接口

最佳实践

1.断点续建索引避免重复计算,统一嵌入接口支持模型热切换

2.三件套原子保存(index+metadata+filelist)保证一致性

3.文件后缀自动路由模态类型实现零配置多模态摄入

4.FAISS merge_from 原生合并避免手动向量拼接的内存开销