问题域/PD-397

多模态交互

Multimodal Interaction

支持语音、文本等多种交互模态的实时通信系统

子问题

1.语音活动检测

2.音频格式转换

3.实时双向通信

4.会话指令管理

5.三方 WebSocket 桥接与事件路由

6.语音对话中的工作流触发与结果注入

7.多 TTS 供应商运行时动态切换

8.消息持久化交替序列保证

各项目的解法1 solutions

Signals

横向对比

维度Langflow
通信协议WebSocket 双端桥接,后端中间人转发 OpenAI Realtime API
音频格式PCM16 24kHz,scipy resample 降采样到 16kHz 供 VAD
VAD 实现webrtcvad mode=3 + 20ms 帧检测 + barge-in 取消
TTS 供应商OpenAI Realtime 原生音频 / ElevenLabs 双供应商运行时切换
业务集成Flow-as-Tool 模式,工作流注册为 OpenAI function tool
指令管理Permanent/Default/Additional 三层优先级指令分层
前端音频AudioWorklet 128 样本帧双向流处理器

最佳实践

1.WebSocket实现低延迟双向音频流传输

2.双队列异步写入器防止 WebSocket 写入阻塞事件循环

3.三层指令分层防止用户 prompt 注入覆盖系统规则

4.AudioWorklet 128 样本帧实现低延迟前端音频采集播放