Microsoft только что выпустила VibeVoice-ASR на Hugging Face Унифицированная модель распознавания речи в текст, которая транскрибирует аудио продолжительностью в час за один проход С встроенной диаризацией спикеров, временными метками и настраиваемым пользовательским контекстом