Microsoft właśnie wydał VibeVoice-ASR na Hugging Face Zunifikowany model mowy na tekst, który transkrybuje godzinne nagrania audio w jednym przebiegu Z wbudowaną diarizacją mówców, znacznikami czasowymi i dostosowywalnym kontekstem użytkownika