内容去重
Content Deduplication
跨数据源的 URL 级和语义级内容去重与合并策略
子问题
1.URL归一化与跨源合并
2.标题语义相似度计算
3.CJK与ASCII混合文本的token化
4.去重后内容合并策略
5.去重时机选择对API成本的影响
6.副本内容追加时的来源标注与可追溯性
各项目的解法1 solutions
Signals
横向对比
| 维度 | Horizon |
|---|---|
| 去重层级 | 两层:URL归一化 + Jaccard语义,分别在AI前后执行 |
| 相似度算法 | Jaccard(ASCII词+CJK双字元组) + AI标签重叠双判定 |
| 合并策略 | 保留最长content为主记录,副本content带来源标签追加 |
| CJK支持 | 正则提取CJK字符后滑动窗口生成bigram |
| 阈值设计 | 标题Jaccard≥0.33 或 标签重叠≥2且Jaccard≥0.15 |
| 去重时机 | URL去重在AI分析前(省API),语义去重在AI分析后(用标签) |
最佳实践
1.URL归一化去除www/尾斜杠/fragment
2.Jaccard相似度+标签重叠双重判定
3.保留最丰富内容作为主记录
4.URL去重在AI分析前执行以减少API调用量
5.语义去重后将副本content带来源标签追加到主记录而非丢弃
6.双判定条件(标题相似度+标签重叠)降低单信号误判率