问题域/PD-344

浏览器自动化Agent

Browser Automation Agent

通过MCP协议控制真实浏览器实现深度网页交互和信息获取

子问题

1.如何通过MCP协议管理浏览器会话

2.如何实现可靠的页面导航和元素交互

3.如何处理浏览器会话的并发和生命周期

4.如何将超长页面 DOM 压缩为 Agent 可消费的结构化摘要

5.如何在多 Agent 并行场景下隔离浏览器资源(信号量分级)

各项目的解法1 solutions

Signals

横向对比

维度DeepResearch
浏览器接入方式MCP 协议 + SSE 传输连接远程浏览器服务
会话隔离UUID ROUTE-KEY 路由 + asyncio.Lock 串行化
连接保活20s ping loop 调用 list_tools 维持 SSE
操作原语visit/click/fill 三种原子操作
页面理解LLM 分片增量摘要提取 evidence+summary
并发模型三级 Semaphore(session/llm/tool)独立限流

最佳实践

1.使用SSE长连接+心跳保活维持MCP会话稳定性

2.用 UUID ROUTE-KEY 实现 MCP 会话级浏览器实例隔离

3.Lock 仅保护 MCP 调用本身,LLM 摘要不持锁以提高并发度

4.LLM 增量分片摘要处理超长页面内容(evidence+summary 结构化输出)