GPT-5.4 lek: 2M token context + persistente staat = KV-cache-explosie Dit zijn de Geheugenoorlogen in real time HBM voor gewichten. SRAM voor latentie-kritische inferentie. Optische verbindingen om alles te verbinden De bifurcatie waar ik over heb geschreven is niet langer theoretisch.