问题域/PD-454

语音音频管道

Speech & Audio Pipeline

端到端语音处理:VAD检测、STT转录、TTS合成的完整音频管道

子问题

1.语音活动检测

2.多引擎语音转录

3.语音合成与情感控制

4.音频格式转换

5.TTS 文本流式分段与首字节延迟优化

6.语音意图优先级调度与打断控制

7.跨平台音频编解码复用(Browser/Node.js)

8.WebSocket 流式转录会话生命周期管理

各项目的解法1 solutions

Signals

横向对比

维度AIRI
STT引擎10+ Provider 统一接口:OpenAI/Aliyun NLS/Web Speech API/Whisper 本地
TTS引擎ElevenLabs/Kokoro/Volcengine/Azure/Deepgram 等 11 个 Provider
VAD方案AudioWorklet 512 样本累积,Float32→Int16 主线程转换
流式架构ReadableStream 全链路:VAD→STT→Pipeline→TTS→Playback
调度策略Intent 优先级调度,4 级优先级 + queue/interrupt/replace 三行为
文本分段Intl.Segmenter 词级分割 + 中西文标点感知 + 数字保护
格式转换纯 JS WAV 编码器 + OpusScript 解码 + PCM 双向转换
跨平台Browser AudioWorklet + Node.js Transform Stream 双端复用

最佳实践

1.支持本地和云端双模式STT

2.AudioWorklet 隔离音频处理避免主线程阻塞

3.Intent 行为模式(queue/interrupt/replace)解耦调度策略

4.Intl.Segmenter 实现多语言感知的 TTS 文本分段

5.idle 超时 + AbortController 统一管理流式会话生命周期