微软刚刚发布了 VibeVoice-Realtime-0.5B 开源实时 TTS AI 模型,约 300 毫秒后开始说话 流式、长格式且极其快速。