问题域/PD-341

网页内容提取与摘要

Web Content Extraction & Summarization

从原始网页中提取结构化信息并生成面向目标的摘要

子问题

1.如何高效抓取和清洗网页内容

2.如何面向特定目标提取关键信息

3.如何处理超长网页内容的截断与降级

4.如何对 LLM 输出的非标准 JSON 进行鲁棒解析

5.如何在多个抓取源之间切换和降级

各项目的解法1 solutions

Signals

横向对比

维度DeepResearch
抓取方式Jina Reader API 统一抓取,r.jina.ai 端点自动 HTML→Markdown
截断策略tiktoken cl100k_base 编码截断到 95K token
提取框架rational-evidence-summary 三段式 LLM 提取
降级机制摘要失败时 70%→70%→25K 渐进缩短内容重试
JSON容错markdown标记清理 + find/rfind括号定位 + 3次重试
并行能力主入口串行+900s超时,WebSailor变体ThreadPoolExecutor并行
多源支持Jina/AiData/ScraperAPI 三源可切换(READPAGE_SOURCE 环境变量)

最佳实践

1.使用rational-evidence-summary三段式提取框架

2.用 tiktoken 做 token 级截断比字符截断更精确

3.摘要失败时渐进缩短内容而非直接放弃