Computer Use Agent 多模态

Computer Use Agent (CUA)

实现多供应商 Computer Use Agent 框架，通过截图+坐标实现视觉驱动的浏览器操作

子问题

1.多供应商 CUA 协议适配

2.坐标归一化处理

3.截图压缩与传输

4.键盘映射跨平台

5.CUA API 版本兼容（如 Anthropic computer_20250124 vs computer_20251124）

6.安全确认回调与人类审批流程

7.多模式工具集动态裁剪（dom/hybrid/cua 按场景切换）

Signals

维度	Stagehand
供应商覆盖	4 供应商（Anthropic/OpenAI/Google/Microsoft），13 个模型，静态映射表路由
协议适配	每供应商独立 Client 类，各自处理 tool_use/computer_call/functionCall/XML 四种协议
坐标处理	Google 0-1000 归一化→像素转换，Anthropic coordinate 数组→x/y 拆分，OpenAI 直接像素
截图管理	三格式独立压缩函数，保留最近 2 张，旧截图替换为文本占位符
操作模式	dom/hybrid/cua 三模式，filterTools 动态裁剪 16 个工具集
安全机制	SafetyConfirmationHandler 回调 + pending_safety_checks 处理，支持人类确认
键盘映射	40+ 键名变体统一映射到 Playwright 标准键名，覆盖 macOS/Windows/Linux

1.提供 dom/hybrid/cua 三种模式让用户按场景选择

2.用静态模型名映射表实现自动供应商路由，同时支持显式 provider 覆盖

3.截图压缩保留最近 N 张而非全部丢弃，平衡 token 成本与上下文连续性

4.键盘映射统一层覆盖 macOS/Windows/Linux 三平台键名变体