问题域/PD-159

内容源自动检测

Content Source Auto-Detection

通过 URL 模式匹配和内容嗅探自动识别信息源类型,降低用户配置成本

子问题

1.URL 正则匹配已知平台

2.HTTP Content-Type 嗅探

3.RSS/Atom XML 解析

4.JSON Feed 检测

5.HTML 降级处理

6.SSRF 防护与 DNS rebinding 防御

7.重定向跟踪与循环检测

8.响应体大小限制与超时控制

各项目的解法1 solutions

Signals

横向对比

维度ClawFeed
检测策略两阶段:URL 正则快速匹配 + HTTP Content-Type 嗅探降级链
平台覆盖Twitter/X(handle+list)、Reddit、GitHub Trending、HN 四大平台
Feed 格式RSS 2.0、Atom、JSON Feed 1.1 三种格式自动识别
安全防护DNS 解析 + 私有 IP 检查 + 重定向限制 + 响应体 200KB 上限
预览能力RSS/JSON Feed 返回前 5 条 item 预览,HTML 提取 title
降级行为XML → JSON → HTML → Error 四级降级,HTML 为最终兜底

最佳实践

1.先 URL 模式匹配再 HTTP 嗅探

2.支持多种 feed 格式降级

3.返回预览数据辅助用户确认

4.HTTP 嗅探前必须做 DNS 解析级 SSRF 检查

5.已知平台用 URL 正则排除系统保留路径避免误判

6.统一返回结构让下游 createSource 零适配消费