问题域/PD-572

实时语音交互

Realtime Voice Agent

支持实时语音输入输出的agent系统,集成WebSocket流式通信和TTS能力

子问题

1.WebSocket事件驱动架构

2.音频流处理与缓冲

3.多模态输入融合

4.实时中断与恢复

5.多提供商 API 统一抽象

6.工具参数流式累积与解析

各项目的解法1 solutions

Signals

横向对比

维度AgentScope
WebSocket 管理基类封装连接生命周期,子类实现 parse_api_message
事件驱动架构三层事件协议(Model/Server/Client),双队列解耦
音频流处理自动重采样 + delta 增量传输
多提供商支持统一抽象接口,支持 OpenAI/Gemini/DashScope
工具调用模式asyncio.create_task 异步执行,ToolResultBlock 回传
多 Agent 协作Agent 间通过 ServerEvents 传递语音消息

最佳实践

1.使用异步生成器处理音频流

2.实现事件驱动的状态机

3.支持多agent实时对话协调

4.使用双队列解耦输入输出事件流

5.基类封装 WebSocket 生命周期,子类实现协议适配

6.工具调用用 asyncio.create_task 异步执行,避免阻塞音频流