跨章节语义去重
Cross-Section Semantic Deduplication
多Agent协作生成长文时检测并消除不同章节间的语义重复内容
子问题
1.跨章节重复检测
2.语义相似度计算
3.冗余内容合并策略
4.去重后连贯性保持
5.代码块与标题行的切分排除
6.Embedding后端不可用时的零依赖降级
各项目的解法1 solutions
Signals
横向对比
| 维度 | vibe-blog |
|---|---|
| 检测粒度 | 段落级切分,跳过代码块/标题,最小50字符过滤 |
| 相似度算法 | Embedding余弦相似度,双后端(OpenAI + 本地TF-IDF降级) |
| 去重策略 | 保留首现段落,后续章节中直接删除重复段落 |
| 触发位置 | Writer+Coder后、Reviewer前,LangGraph独立节点 |
| 降级保护 | 环境变量开关默认关闭,异常时跳过不阻断主流程 |
最佳实践
1.在Assembler阶段统一做跨章节去重
2.LLM识别语义相似段落而非简单文本匹配
3.去重节点放在代码生成后、质量审核前,避免审核冗余内容
4.默认关闭开关,按需启用,异常时静默降级不阻断主流程