Ada 384 GB VRAM cepat di Blackwell tinybox 🧵
Kami bosan menggunakan alat vendor untuk pengujian bandwidth, jadi kami menulis yang universal di tinygrad. GPU terhubung pada PCIe 5.0 x16 penuh
Obor GEMM pada satu kartu adalah 438 TFLOPS BF16 -> FP32. Itu menempatkan mesin pada 1,75 PFLOPS kinerja GEMM nyata.
Di mmapeak, kami berada di 3.1 PFLOPS di seluruh kartu. Di sinilah kurangnya nerf 5090 benar-benar bersinar, itu lebih dari dua kali lipat FLOPS mentah dari v2 hijau kotak kecil!
Semua kotak Blackwell kami akan dikirim dengan susunan RAID terbaru kami. **55,3 GB/dtk** bandwidth baca yang diukur, yang lebih cepat daripada RAM di sebagian besar ponsel.
Sambil menunggu penggorengan gpu, inilah mmapeak. **3.1 PFLOPS** di seluruh kartu fp16 -> fp32. Di sinilah kurangnya nerf 5090 benar-benar bersinar, itu lebih dari dua kali lipat FLOPS mentah dari v2 hijau kotak kecil!
Ini di huggingface/gpu-fryer. 2522W dengan daya penuh, tidak ada Max-Q di sekitar sini!
Suhu akhir pada saturasi setelah 15 menit adalah 72C, 80C, 71C, dan 76C. Kami masih mengerjakan kebijakan kipas dan tata letak kartu, pendingin berbeda dari apa yang telah kami kerjakan sebelumnya. Tapi mesin pengiriman akan *setidaknya* sebagus ini.
8,42K