浏览器自动化Agent
Browser Automation Agent
通过MCP协议控制真实浏览器实现深度网页交互和信息获取
子问题
1.如何通过MCP协议管理浏览器会话
2.如何实现可靠的页面导航和元素交互
3.如何处理浏览器会话的并发和生命周期
4.如何将超长页面 DOM 压缩为 Agent 可消费的结构化摘要
5.如何在多 Agent 并行场景下隔离浏览器资源(信号量分级)
各项目的解法1 solutions
Signals
横向对比
| 维度 | DeepResearch |
|---|---|
| 浏览器接入方式 | MCP 协议 + SSE 传输连接远程浏览器服务 |
| 会话隔离 | UUID ROUTE-KEY 路由 + asyncio.Lock 串行化 |
| 连接保活 | 20s ping loop 调用 list_tools 维持 SSE |
| 操作原语 | visit/click/fill 三种原子操作 |
| 页面理解 | LLM 分片增量摘要提取 evidence+summary |
| 并发模型 | 三级 Semaphore(session/llm/tool)独立限流 |
最佳实践
1.使用SSE长连接+心跳保活维持MCP会话稳定性
2.用 UUID ROUTE-KEY 实现 MCP 会话级浏览器实例隔离
3.Lock 仅保护 MCP 调用本身,LLM 摘要不持锁以提高并发度
4.LLM 增量分片摘要处理超长页面内容(evidence+summary 结构化输出)