Orang-orang bertanya mengapa saya bersikeras pada GPU dan bukan Mac Studios/Mac mini Inilah sebabnya: - Llama 3.1 70B BF16 pada 8x RTX 3090s - 50+ permintaan bersamaan - Inferensi batch - Throughput berkelanjutan Tidak hanya itu: > ~2k konteks per permintaan (prompt) > ~1,8 ribu token dalam output > 2 menit 29 detik untuk 50 tanggapan Ini adalah wilayah GPU. Anda tidak dapat melakukan ini di Mac. Setidaknya belum.