Microsoft vừa phát hành VibeVoice-ASR trên Hugging Face Một mô hình chuyển đổi giọng nói thành văn bản thống nhất có khả năng phiên âm âm thanh dài một giờ chỉ trong một lần Với khả năng phân biệt người nói, dấu thời gian và ngữ cảnh người dùng có thể tùy chỉnh