多模态交互
Multimodal Interaction
支持语音、文本等多种交互模态的实时通信系统
子问题
1.语音活动检测
2.音频格式转换
3.实时双向通信
4.会话指令管理
5.三方 WebSocket 桥接与事件路由
6.语音对话中的工作流触发与结果注入
7.多 TTS 供应商运行时动态切换
8.消息持久化交替序列保证
各项目的解法1 solutions
Signals
横向对比
| 维度 | Langflow |
|---|---|
| 通信协议 | WebSocket 双端桥接,后端中间人转发 OpenAI Realtime API |
| 音频格式 | PCM16 24kHz,scipy resample 降采样到 16kHz 供 VAD |
| VAD 实现 | webrtcvad mode=3 + 20ms 帧检测 + barge-in 取消 |
| TTS 供应商 | OpenAI Realtime 原生音频 / ElevenLabs 双供应商运行时切换 |
| 业务集成 | Flow-as-Tool 模式,工作流注册为 OpenAI function tool |
| 指令管理 | Permanent/Default/Additional 三层优先级指令分层 |
| 前端音频 | AudioWorklet 128 样本帧双向流处理器 |
最佳实践
1.WebSocket实现低延迟双向音频流传输
2.双队列异步写入器防止 WebSocket 写入阻塞事件循环
3.三层指令分层防止用户 prompt 注入覆盖系统规则
4.AudioWorklet 128 样本帧实现低延迟前端音频采集播放