文档摄入管道
Document Ingestion Pipeline
解决非结构化文档到可检索向量索引的端到端转换问题,包括格式转换、分层切块和索引构建
子问题
1.PDF/文档格式转换
2.分层切块策略(Parent-Child)
3.块大小优化与合并清理
4.向量索引构建与混合嵌入
各项目的解法0 solutions
Signals
最佳实践
1.采用 Parent-Child 分层索引平衡检索精度与上下文丰富度
2.实现 merge-split-clean 三阶段块优化防止碎片化
Document Ingestion Pipeline
解决非结构化文档到可检索向量索引的端到端转换问题,包括格式转换、分层切块和索引构建
1.PDF/文档格式转换
2.分层切块策略(Parent-Child)
3.块大小优化与合并清理
4.向量索引构建与混合嵌入
1.采用 Parent-Child 分层索引平衡检索精度与上下文丰富度
2.实现 merge-split-clean 三阶段块优化防止碎片化