知识图谱构建
Knowledge Graph Construction
从文本和多模态内容自动提取实体与关系构建知识图谱
子问题
1.实体抽取与类型识别
2.关系抽取与权重计算
3.多模态实体的 belongs_to 关联
4.实体去重与增量合并
5.图谱存储与向量索引同步
6.上下文感知的多模态描述生成(页面窗口 vs chunk 窗口)
7.LLM 响应的鲁棒 JSON 解析(4 级降级策略)
8.批处理与逐个处理的 fallback 切换
各项目的解法1 solutions
Signals
横向对比
| 维度 | RAG-Anything |
|---|---|
| 实体抽取方式 | LightRAG extract_entities LLM 抽取,无预定义 schema |
| 多模态支持 | Image/Table/Equation/Generic 四类专用 Processor + VLM |
| 关系构建策略 | LLM 抽取 + belongs_to 层级关系自动注入,weight=10.0 |
| 图谱存储 | 图数据库 + 向量库双写,支持图遍历和语义检索 |
| 增量更新 | upsert 语义,chunk_id 基于内容 MD5 哈希自动去重 |
| 上下文感知 | ContextExtractor 页面/chunk 窗口模式,tokenizer 精确截断 |
最佳实践
1.使用 LLM 进行实体关系抽取
2.为多模态实体建立与文档实体的层级关系
3.实体和关系同时存入图数据库和向量库
4.为多模态 chunk 使用专用模板格式化后再送入实体抽取
5.批处理分 Stage 1 并发描述 + Stage 2 批量抽取,降低 LLM 调用延迟
6.belongs_to 关系设置高权重(10.0)确保图遍历时优先发现层级结构