Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
NVIDIA ha appena pubblicato un documento che potrebbe risolvere il più grande compromesso negli LLM.
Velocità vs. Qualità.
I modelli autoregressivi (come GPT) sono intelligenti ma lenti - generano un token alla volta, lasciando la maggior parte della tua GPU inattiva.
I modelli di diffusione sono veloci ma spesso producono output incoerenti.
TiDAR ti offre entrambi in un'unica passata in avanti.
Ecco la parte geniale:
Le GPU moderne possono elaborare molti più token di quanti ne utilizziamo effettivamente. TiDAR sfrutta questi "slot gratuiti" facendo:
1. Bozze di più token contemporaneamente utilizzando la diffusione (la fase del "pensare")
2. Verifica di essi utilizzando l'autoregressione (la fase del "parlare")
Entrambi avvengono simultaneamente utilizzando maschere di attenzione intelligenti - bidirezionali per la bozza, causali per la verifica.
I risultati:
↳ 4,71 volte più veloce a 1,5 miliardi di parametri senza perdita di qualità
↳ Quasi 6 volte più veloce a 8 miliardi di parametri
↳ Prima architettura a superare il decoding speculativo (EAGLE-3)
↳ Funziona con la cache KV standard, a differenza dei modelli di diffusione puri
Il trucco di addestramento è astuto anche - invece di mascherare casualmente i token, mascherano tutto. Questo fornisce segnali di apprendimento più forti e consente una bozza efficiente in un singolo passaggio.
Se stai costruendo agenti AI in tempo reale dove la latenza rovina l'esperienza, questa architettura merita attenzione.
...

Principali
Ranking
Preferiti

