内容源自动检测
Content Source Auto-Detection
通过 URL 模式匹配和内容嗅探自动识别信息源类型,降低用户配置成本
子问题
1.URL 正则匹配已知平台
2.HTTP Content-Type 嗅探
3.RSS/Atom XML 解析
4.JSON Feed 检测
5.HTML 降级处理
6.SSRF 防护与 DNS rebinding 防御
7.重定向跟踪与循环检测
8.响应体大小限制与超时控制
各项目的解法1 solutions
Signals
横向对比
| 维度 | ClawFeed |
|---|---|
| 检测策略 | 两阶段:URL 正则快速匹配 + HTTP Content-Type 嗅探降级链 |
| 平台覆盖 | Twitter/X(handle+list)、Reddit、GitHub Trending、HN 四大平台 |
| Feed 格式 | RSS 2.0、Atom、JSON Feed 1.1 三种格式自动识别 |
| 安全防护 | DNS 解析 + 私有 IP 检查 + 重定向限制 + 响应体 200KB 上限 |
| 预览能力 | RSS/JSON Feed 返回前 5 条 item 预览,HTML 提取 title |
| 降级行为 | XML → JSON → HTML → Error 四级降级,HTML 为最终兜底 |
最佳实践
1.先 URL 模式匹配再 HTTP 嗅探
2.支持多种 feed 格式降级
3.返回预览数据辅助用户确认
4.HTTP 嗅探前必须做 DNS 解析级 SSRF 检查
5.已知平台用 URL 正则排除系统保留路径避免误判
6.统一返回结构让下游 createSource 零适配消费