网页内容提取与摘要

Web Content Extraction & Summarization

从原始网页中提取结构化信息并生成面向目标的摘要

子问题

1.如何高效抓取和清洗网页内容

2.如何面向特定目标提取关键信息

3.如何处理超长网页内容的截断与降级

4.如何对 LLM 输出的非标准 JSON 进行鲁棒解析

5.如何在多个抓取源之间切换和降级

Signals

维度	DeepResearch
抓取方式	Jina Reader API 统一抓取，r.jina.ai 端点自动 HTML→Markdown
截断策略	tiktoken cl100k_base 编码截断到 95K token
提取框架	rational-evidence-summary 三段式 LLM 提取
降级机制	摘要失败时 70%→70%→25K 渐进缩短内容重试
JSON容错	markdown标记清理 + find/rfind括号定位 + 3次重试
并行能力	主入口串行+900s超时，WebSailor变体ThreadPoolExecutor并行
多源支持	Jina/AiData/ScraperAPI 三源可切换（READPAGE_SOURCE 环境变量）

1.使用rational-evidence-summary三段式提取框架

2.用 tiktoken 做 token 级截断比字符截断更精确

3.摘要失败时渐进缩短内容而非直接放弃