Rò rỉ GPT-5.4: ngữ cảnh 2 triệu token + trạng thái liên tục = bùng nổ bộ nhớ KV Đây là Cuộc chiến Bộ nhớ trong thời gian thực HBM cho trọng số. SRAM cho suy diễn nhạy cảm với độ trễ. Kết nối quang học để kết nối tất cả lại với nhau Sự phân tách mà tôi đã viết không còn là lý thuyết nữa.