NVIDIA ha appena pubblicato un documento che potrebbe risolvere il più grande compromesso negli LLM. Velocità vs. Qualità. I modelli autoregressivi (come GPT) sono intelligenti ma lenti - generano un token alla volta, lasciando la maggior parte della tua GPU inattiva. I modelli di diffusione sono veloci ma spesso producono output incoerenti. TiDAR ti offre entrambi in un'unica passata in avanti. Ecco la parte geniale: Le GPU moderne possono elaborare molti più token di quanti ne utilizziamo effettivamente. TiDAR sfrutta questi "slot gratuiti" facendo: 1. Bozze di più token contemporaneamente utilizzando la diffusione (la fase del "pensare") 2. Verifica di essi utilizzando l'autoregressione (la fase del "parlare") Entrambi avvengono simultaneamente utilizzando maschere di attenzione intelligenti - bidirezionali per la bozza, causali per la verifica. I risultati: ↳ 4,71 volte più veloce a 1,5 miliardi di parametri senza perdita di qualità ↳ Quasi 6 volte più veloce a 8 miliardi di parametri ↳ Prima architettura a superare il decoding speculativo (EAGLE-3) ↳ Funziona con la cache KV standard, a differenza dei modelli di diffusione puri Il trucco di addestramento è astuto anche - invece di mascherare casualmente i token, mascherano tutto. Questo fornisce segnali di apprendimento più forti e consente una bozza efficiente in un singolo passaggio. Se stai costruendo agenti AI in tempo reale dove la latenza rovina l'esperienza, questa architettura merita attenzione. ...