语音音频管道
Speech & Audio Pipeline
端到端语音处理:VAD检测、STT转录、TTS合成的完整音频管道
子问题
1.语音活动检测
2.多引擎语音转录
3.语音合成与情感控制
4.音频格式转换
5.TTS 文本流式分段与首字节延迟优化
6.语音意图优先级调度与打断控制
7.跨平台音频编解码复用(Browser/Node.js)
8.WebSocket 流式转录会话生命周期管理
各项目的解法1 solutions
Signals
横向对比
| 维度 | AIRI |
|---|---|
| STT引擎 | 10+ Provider 统一接口:OpenAI/Aliyun NLS/Web Speech API/Whisper 本地 |
| TTS引擎 | ElevenLabs/Kokoro/Volcengine/Azure/Deepgram 等 11 个 Provider |
| VAD方案 | AudioWorklet 512 样本累积,Float32→Int16 主线程转换 |
| 流式架构 | ReadableStream 全链路:VAD→STT→Pipeline→TTS→Playback |
| 调度策略 | Intent 优先级调度,4 级优先级 + queue/interrupt/replace 三行为 |
| 文本分段 | Intl.Segmenter 词级分割 + 中西文标点感知 + 数字保护 |
| 格式转换 | 纯 JS WAV 编码器 + OpusScript 解码 + PCM 双向转换 |
| 跨平台 | Browser AudioWorklet + Node.js Transform Stream 双端复用 |
最佳实践
1.支持本地和云端双模式STT
2.AudioWorklet 隔离音频处理避免主线程阻塞
3.Intent 行为模式(queue/interrupt/replace)解耦调度策略
4.Intl.Segmenter 实现多语言感知的 TTS 文本分段
5.idle 超时 + AbortController 统一管理流式会话生命周期