问题域/PD-277

Computer Use Agent 多模态

Computer Use Agent (CUA)

实现多供应商 Computer Use Agent 框架,通过截图+坐标实现视觉驱动的浏览器操作

子问题

1.多供应商 CUA 协议适配

2.坐标归一化处理

3.截图压缩与传输

4.键盘映射跨平台

5.CUA API 版本兼容(如 Anthropic computer_20250124 vs computer_20251124)

6.安全确认回调与人类审批流程

7.多模式工具集动态裁剪(dom/hybrid/cua 按场景切换)

各项目的解法1 solutions

Signals

横向对比

维度Stagehand
供应商覆盖4 供应商(Anthropic/OpenAI/Google/Microsoft),13 个模型,静态映射表路由
协议适配每供应商独立 Client 类,各自处理 tool_use/computer_call/functionCall/XML 四种协议
坐标处理Google 0-1000 归一化→像素转换,Anthropic coordinate 数组→x/y 拆分,OpenAI 直接像素
截图管理三格式独立压缩函数,保留最近 2 张,旧截图替换为文本占位符
操作模式dom/hybrid/cua 三模式,filterTools 动态裁剪 16 个工具集
安全机制SafetyConfirmationHandler 回调 + pending_safety_checks 处理,支持人类确认
键盘映射40+ 键名变体统一映射到 Playwright 标准键名,覆盖 macOS/Windows/Linux

最佳实践

1.提供 dom/hybrid/cua 三种模式让用户按场景选择

2.用静态模型名映射表实现自动供应商路由,同时支持显式 provider 覆盖

3.截图压缩保留最近 N 张而非全部丢弃,平衡 token 成本与上下文连续性

4.键盘映射统一层覆盖 macOS/Windows/Linux 三平台键名变体