Microsoft hat gerade VibeVoice-ASR auf Hugging Face veröffentlicht Ein einheitliches Sprach-zu-Text-Modell, das stundenlange Audios in einem Durchgang transkribiert Mit integrierter Sprecher-Diarisation, Zeitstempeln und anpassbarem Benutzerkontext