问题域/PD-104

知识图谱构建

Knowledge Graph Construction

从文本和多模态内容自动提取实体与关系构建知识图谱

子问题

1.实体抽取与类型识别

2.关系抽取与权重计算

3.多模态实体的 belongs_to 关联

4.实体去重与增量合并

5.图谱存储与向量索引同步

6.上下文感知的多模态描述生成(页面窗口 vs chunk 窗口)

7.LLM 响应的鲁棒 JSON 解析(4 级降级策略)

8.批处理与逐个处理的 fallback 切换

各项目的解法1 solutions

Signals

横向对比

维度RAG-Anything
实体抽取方式LightRAG extract_entities LLM 抽取,无预定义 schema
多模态支持Image/Table/Equation/Generic 四类专用 Processor + VLM
关系构建策略LLM 抽取 + belongs_to 层级关系自动注入,weight=10.0
图谱存储图数据库 + 向量库双写,支持图遍历和语义检索
增量更新upsert 语义,chunk_id 基于内容 MD5 哈希自动去重
上下文感知ContextExtractor 页面/chunk 窗口模式,tokenizer 精确截断

最佳实践

1.使用 LLM 进行实体关系抽取

2.为多模态实体建立与文档实体的层级关系

3.实体和关系同时存入图数据库和向量库

4.为多模态 chunk 使用专用模板格式化后再送入实体抽取

5.批处理分 Stage 1 并发描述 + Stage 2 批量抽取,降低 LLM 调用延迟

6.belongs_to 关系设置高权重(10.0)确保图遍历时优先发现层级结构