🚨 BREAKING: Seorang peneliti Google dan pemenang Turing Award baru saja menerbitkan makalah yang mengungkap krisis nyata dalam AI. Ini bukan pelatihan. Ini adalah kesimpulan. Dan perangkat keras yang kami gunakan tidak pernah dirancang untuk itu. Makalah itu oleh Xiaoyu Ma dan David Patterson. Diterima oleh IEEE Computer, 2026. Tidak ada hype. Tidak ada peluncuran produk. Hanya rincian dingin mengapa melayani LLM pada dasarnya rusak di tingkat perangkat keras. Argumen intinya brutal: → GPU FLOPS tumbuh 80X lipat dari 2012 hingga 2022 → Bandwidth memori tumbuh hanya 17X dalam periode yang sama → biaya HBM per GB naik, bukan turun → Fase Decode terikat memori, bukan terikat komputasi → Kami membangun inferensi pada chip yang dirancang untuk pelatihan Inilah bagian terliar: OpenAI kehilangan sekitar $5 miliar dari pendapatan $3,7 miliar. Kemacetan bukanlah kualitas model. Ini adalah biaya penyajian setiap token ke setiap pengguna. Kesimpulan mengarahkan perusahaan-perusahaan ini kering. Dan lima tren memperburuknya secara bersamaan: → model MoE seperti DeepSeek-V3 dengan 256 ahli yang meledakkan memori → Model penalaran menghasilkan rantai pemikiran besar sebelum menjawab → Input multimodal (gambar, audio, video) mengkerdilkan teks → jendela konteks panjang membebani cache KV → alur RAG menyuntikkan lebih banyak konteks per permintaan Empat pergeseran perangkat keras yang mereka usulkan: → Flash Bandwidth Tinggi: tumpukan 512GB pada bandwidth tingkat HBM, memori 10X lebih banyak per node → Processing-Near-Memory: logika mati ditempatkan di sebelah memori, bukan pada chip yang sama → 3D Memory-Logic Stacking: koneksi vertikal yang memberikan daya 2-3X lebih rendah daripada HBM...