Microsoft heeft zojuist VibeVoice-ASR uitgebracht op Hugging Face Een verenigd spraak-naar-tekstmodel dat audio van een uur in één keer transcribeert Met ingebouwde spreker diarization, tijdstempels en aanpasbare gebruikerscontext