问题域/PD-534

文档摄入管道

Document Ingestion Pipeline

解决非结构化文档到可检索向量索引的端到端转换问题,包括格式转换、分层切块和索引构建

子问题

1.PDF/文档格式转换

2.分层切块策略(Parent-Child)

3.块大小优化与合并清理

4.向量索引构建与混合嵌入

各项目的解法0 solutions

Signals

最佳实践

1.采用 Parent-Child 分层索引平衡检索精度与上下文丰富度

2.实现 merge-split-clean 三阶段块优化防止碎片化