Microsoft vừa phát hành VibeVoice-ASR trên Hugging Face
Một mô hình chuyển đổi giọng nói thành văn bản thống nhất có khả năng phiên âm âm thanh dài một giờ chỉ trong một lần
Với khả năng phân biệt người nói, dấu thời gian và ngữ cảnh người dùng có thể tùy chỉnh
Suy nghĩ Đa chiều
Một phương pháp phân nhánh và hợp nhất từ Microsoft Research và UPenn. Lấy mẫu K token mỗi bước thành một token đa chiều—tự thích ứng: các bước tự tin hoạt động như CoT, trong khi các bước không chắc chắn đại diện cho nhiều con đường. Vượt trội hơn CoT rời rạc với các chuỗi ngắn hơn.
RubricHub
Một tập dữ liệu rubric quy mô lớn với khoảng 110k trường hợp để đào tạo các mô hình sinh mở. Sử dụng một khung tự động từ thô đến tinh để tạo ra các tiêu chí đánh giá phân biệt cao, cho phép Qwen3-14B vượt qua GPT-5 trên HealthBench.