Computer Use Agent 多模态
Computer Use Agent (CUA)
实现多供应商 Computer Use Agent 框架,通过截图+坐标实现视觉驱动的浏览器操作
子问题
1.多供应商 CUA 协议适配
2.坐标归一化处理
3.截图压缩与传输
4.键盘映射跨平台
5.CUA API 版本兼容(如 Anthropic computer_20250124 vs computer_20251124)
6.安全确认回调与人类审批流程
7.多模式工具集动态裁剪(dom/hybrid/cua 按场景切换)
各项目的解法1 solutions
Signals
横向对比
| 维度 | Stagehand |
|---|---|
| 供应商覆盖 | 4 供应商(Anthropic/OpenAI/Google/Microsoft),13 个模型,静态映射表路由 |
| 协议适配 | 每供应商独立 Client 类,各自处理 tool_use/computer_call/functionCall/XML 四种协议 |
| 坐标处理 | Google 0-1000 归一化→像素转换,Anthropic coordinate 数组→x/y 拆分,OpenAI 直接像素 |
| 截图管理 | 三格式独立压缩函数,保留最近 2 张,旧截图替换为文本占位符 |
| 操作模式 | dom/hybrid/cua 三模式,filterTools 动态裁剪 16 个工具集 |
| 安全机制 | SafetyConfirmationHandler 回调 + pending_safety_checks 处理,支持人类确认 |
| 键盘映射 | 40+ 键名变体统一映射到 Playwright 标准键名,覆盖 macOS/Windows/Linux |
最佳实践
1.提供 dom/hybrid/cua 三种模式让用户按场景选择
2.用静态模型名映射表实现自动供应商路由,同时支持显式 provider 覆盖
3.截图压缩保留最近 N 张而非全部丢弃,平衡 token 成本与上下文连续性
4.键盘映射统一层覆盖 macOS/Windows/Linux 三平台键名变体