"La previsione del prossimo token" ha appena ricevuto un serio rivale 🤯 Ant Group ha appena lanciato LLaDA 2.1, che sfida il paradigma dominante degli LLM. A differenza della maggior parte dei modelli che generano un token alla volta, LLaDA 2.1 utilizza la diffusione per generare blocchi di testo in parallelo. Perché questo cambia tutto:  → Pianificazione Globale: Vede efficacemente il "futuro" mentre scrive il "passato" → Generazione Parallela: Genera blocchi in parallelo, non in modo sequenziale, risultando molto più veloce → Massima Efficienza: Architettura MoE da 16B che utilizza solo ~1.4B di parametri attivi per passo. 100% Open Source.