实时语音交互

Realtime Voice Agent

支持实时语音输入输出的agent系统，集成WebSocket流式通信和TTS能力

子问题

1.WebSocket事件驱动架构

2.音频流处理与缓冲

3.多模态输入融合

4.实时中断与恢复

5.多提供商 API 统一抽象

6.工具参数流式累积与解析

Signals

维度	AgentScope
WebSocket 管理	基类封装连接生命周期，子类实现 parse_api_message
事件驱动架构	三层事件协议（Model/Server/Client），双队列解耦
音频流处理	自动重采样 + delta 增量传输
多提供商支持	统一抽象接口，支持 OpenAI/Gemini/DashScope
工具调用模式	asyncio.create_task 异步执行，ToolResultBlock 回传
多 Agent 协作	Agent 间通过 ServerEvents 传递语音消息

1.使用异步生成器处理音频流

2.实现事件驱动的状态机

3.支持多agent实时对话协调

4.使用双队列解耦输入输出事件流

5.基类封装 WebSocket 生命周期，子类实现协议适配

6.工具调用用 asyncio.create_task 异步执行，避免阻塞音频流