多模态交互

Multimodal Interaction

支持语音、文本等多种交互模态的实时通信系统

子问题

1.语音活动检测

2.音频格式转换

3.实时双向通信

4.会话指令管理

5.三方 WebSocket 桥接与事件路由

6.语音对话中的工作流触发与结果注入

7.多 TTS 供应商运行时动态切换

8.消息持久化交替序列保证

Signals

维度	Langflow
通信协议	WebSocket 双端桥接，后端中间人转发 OpenAI Realtime API
音频格式	PCM16 24kHz，scipy resample 降采样到 16kHz 供 VAD
VAD 实现	webrtcvad mode=3 + 20ms 帧检测 + barge-in 取消
TTS 供应商	OpenAI Realtime 原生音频 / ElevenLabs 双供应商运行时切换
业务集成	Flow-as-Tool 模式，工作流注册为 OpenAI function tool
指令管理	Permanent/Default/Additional 三层优先级指令分层
前端音频	AudioWorklet 128 样本帧双向流处理器

1.WebSocket实现低延迟双向音频流传输

2.双队列异步写入器防止 WebSocket 写入阻塞事件循环

3.三层指令分层防止用户 prompt 注入覆盖系统规则

4.AudioWorklet 128 样本帧实现低延迟前端音频采集播放