问题域/PD-465

内容去重

Content Deduplication

跨数据源的 URL 级和语义级内容去重与合并策略

子问题

1.URL归一化与跨源合并

2.标题语义相似度计算

3.CJK与ASCII混合文本的token化

4.去重后内容合并策略

5.去重时机选择对API成本的影响

6.副本内容追加时的来源标注与可追溯性

各项目的解法1 solutions

Signals

横向对比

维度Horizon
去重层级两层:URL归一化 + Jaccard语义,分别在AI前后执行
相似度算法Jaccard(ASCII词+CJK双字元组) + AI标签重叠双判定
合并策略保留最长content为主记录,副本content带来源标签追加
CJK支持正则提取CJK字符后滑动窗口生成bigram
阈值设计标题Jaccard≥0.33 或 标签重叠≥2且Jaccard≥0.15
去重时机URL去重在AI分析前(省API),语义去重在AI分析后(用标签)

最佳实践

1.URL归一化去除www/尾斜杠/fragment

2.Jaccard相似度+标签重叠双重判定

3.保留最丰富内容作为主记录

4.URL去重在AI分析前执行以减少API调用量

5.语义去重后将副本content带来源标签追加到主记录而非丢弃

6.双判定条件(标题相似度+标签重叠)降低单信号误判率