浏览器自动化Agent

Browser Automation Agent

通过MCP协议控制真实浏览器实现深度网页交互和信息获取

子问题

1.如何通过MCP协议管理浏览器会话

2.如何实现可靠的页面导航和元素交互

3.如何处理浏览器会话的并发和生命周期

4.如何将超长页面 DOM 压缩为 Agent 可消费的结构化摘要

5.如何在多 Agent 并行场景下隔离浏览器资源（信号量分级）

Signals

维度	DeepResearch
浏览器接入方式	MCP 协议 + SSE 传输连接远程浏览器服务
会话隔离	UUID ROUTE-KEY 路由 + asyncio.Lock 串行化
连接保活	20s ping loop 调用 list_tools 维持 SSE
操作原语	visit/click/fill 三种原子操作
页面理解	LLM 分片增量摘要提取 evidence+summary
并发模型	三级 Semaphore（session/llm/tool）独立限流

1.使用SSE长连接+心跳保活维持MCP会话稳定性

2.用 UUID ROUTE-KEY 实现 MCP 会话级浏览器实例隔离

3.Lock 仅保护 MCP 调用本身，LLM 摘要不持锁以提高并发度

4.LLM 增量分片摘要处理超长页面内容（evidence+summary 结构化输出）