问题域/PD-104

知识图谱构建

Knowledge Graph Construction

从文本和多模态内容自动提取实体与关系构建知识图谱

子问题

1.实体抽取与类型识别

2.关系抽取与权重计算

3.多模态实体的 belongs_to 关联

4.实体去重与增量合并

5.图谱存储与向量索引同步

6.上下文感知的多模态描述生成（页面窗口 vs chunk 窗口）

7.LLM 响应的鲁棒 JSON 解析（4 级降级策略）

8.批处理与逐个处理的 fallback 切换

各项目的解法1 solutions

Signals

横向对比

维度	RAG-Anything
实体抽取方式	LightRAG extract_entities LLM 抽取，无预定义 schema
多模态支持	Image/Table/Equation/Generic 四类专用 Processor + VLM
关系构建策略	LLM 抽取 + belongs_to 层级关系自动注入，weight=10.0
图谱存储	图数据库 + 向量库双写，支持图遍历和语义检索
增量更新	upsert 语义，chunk_id 基于内容 MD5 哈希自动去重
上下文感知	ContextExtractor 页面/chunk 窗口模式，tokenizer 精确截断

最佳实践

1.使用 LLM 进行实体关系抽取

2.为多模态实体建立与文档实体的层级关系

3.实体和关系同时存入图数据库和向量库

4.为多模态 chunk 使用专用模板格式化后再送入实体抽取

5.批处理分 Stage 1 并发描述 + Stage 2 批量抽取，降低 LLM 调用延迟

6.belongs_to 关系设置高权重(10.0)确保图遍历时优先发现层级结构