Fuga di GPT-5.4: contesto di 2M token + stato persistente = esplosione della cache KV Queste sono le Guerre della Memoria in tempo reale HBM per i pesi. SRAM per l'inferenza critica in termini di latenza. Interconnessioni ottiche per legare tutto insieme La biforcazione di cui ho scritto non è più teorica.