网页内容提取与摘要
Web Content Extraction & Summarization
从原始网页中提取结构化信息并生成面向目标的摘要
子问题
1.如何高效抓取和清洗网页内容
2.如何面向特定目标提取关键信息
3.如何处理超长网页内容的截断与降级
4.如何对 LLM 输出的非标准 JSON 进行鲁棒解析
5.如何在多个抓取源之间切换和降级
各项目的解法1 solutions
Signals
横向对比
| 维度 | DeepResearch |
|---|---|
| 抓取方式 | Jina Reader API 统一抓取,r.jina.ai 端点自动 HTML→Markdown |
| 截断策略 | tiktoken cl100k_base 编码截断到 95K token |
| 提取框架 | rational-evidence-summary 三段式 LLM 提取 |
| 降级机制 | 摘要失败时 70%→70%→25K 渐进缩短内容重试 |
| JSON容错 | markdown标记清理 + find/rfind括号定位 + 3次重试 |
| 并行能力 | 主入口串行+900s超时,WebSailor变体ThreadPoolExecutor并行 |
| 多源支持 | Jina/AiData/ScraperAPI 三源可切换(READPAGE_SOURCE 环境变量) |
最佳实践
1.使用rational-evidence-summary三段式提取框架
2.用 tiktoken 做 token 级截断比字符截断更精确
3.摘要失败时渐进缩短内容而非直接放弃