问题域/PD-259

跨章节语义去重

Cross-Section Semantic Deduplication

多Agent协作生成长文时检测并消除不同章节间的语义重复内容

子问题

1.跨章节重复检测

2.语义相似度计算

3.冗余内容合并策略

4.去重后连贯性保持

5.代码块与标题行的切分排除

6.Embedding后端不可用时的零依赖降级

各项目的解法1 solutions

Signals

横向对比

维度vibe-blog
检测粒度段落级切分,跳过代码块/标题,最小50字符过滤
相似度算法Embedding余弦相似度,双后端(OpenAI + 本地TF-IDF降级)
去重策略保留首现段落,后续章节中直接删除重复段落
触发位置Writer+Coder后、Reviewer前,LangGraph独立节点
降级保护环境变量开关默认关闭,异常时跳过不阻断主流程

最佳实践

1.在Assembler阶段统一做跨章节去重

2.LLM识别语义相似段落而非简单文本匹配

3.去重节点放在代码生成后、质量审核前,避免审核冗余内容

4.默认关闭开关,按需启用,异常时静默降级不阻断主流程