Microsoft právě vydal VibeVoice-ASR na Hugging Face
Jednotný model převodu řeči na text, který přepisuje hodinový zvuk v jednom průchodu
S vestavěnou diarizací reproduktorů, časovými značkami a přizpůsobitelným uživatelským kontextem
Myšlení multiplexů
Přístup branch and-merge od Microsoft Research a UPenn. Vzorkuje K tokenů na krok do jednoho multiplexního tokenu – samoadaptivní: sebevědomé kroky fungují jako CoT, nejisté představují více cest. Lepší než diskrétní CoT kratšími sekvencemi.
RubricHub
Rozsáhlá rubricová datasada s ~110 tisíci instancemi pro trénování modelů otevřené generace. Používá automatizovaný hrubý až jemný rámec k vytváření vysoce diskriminačních hodnotících kritérií, což umožňuje Qwen3-14B překonat GPT-5 na HealthBench.