问题域/PD-454

语音音频管道

Speech & Audio Pipeline

端到端语音处理：VAD检测、STT转录、TTS合成的完整音频管道

子问题

1.语音活动检测

2.多引擎语音转录

3.语音合成与情感控制

4.音频格式转换

5.TTS 文本流式分段与首字节延迟优化

6.语音意图优先级调度与打断控制

7.跨平台音频编解码复用（Browser/Node.js）

8.WebSocket 流式转录会话生命周期管理

各项目的解法1 solutions

Signals

横向对比

维度	AIRI
STT引擎	10+ Provider 统一接口：OpenAI/Aliyun NLS/Web Speech API/Whisper 本地
TTS引擎	ElevenLabs/Kokoro/Volcengine/Azure/Deepgram 等 11 个 Provider
VAD方案	AudioWorklet 512 样本累积，Float32→Int16 主线程转换
流式架构	ReadableStream 全链路：VAD→STT→Pipeline→TTS→Playback
调度策略	Intent 优先级调度，4 级优先级 + queue/interrupt/replace 三行为
文本分段	Intl.Segmenter 词级分割 + 中西文标点感知 + 数字保护
格式转换	纯 JS WAV 编码器 + OpusScript 解码 + PCM 双向转换
跨平台	Browser AudioWorklet + Node.js Transform Stream 双端复用

最佳实践

1.支持本地和云端双模式STT

2.AudioWorklet 隔离音频处理避免主线程阻塞

3.Intent 行为模式（queue/interrupt/replace）解耦调度策略

4.Intl.Segmenter 实现多语言感知的 TTS 文本分段

5.idle 超时 + AbortController 统一管理流式会话生命周期