İnsanlar neden GPU'larda ısrar ettiğimi soruyor ve Mac Studios/Mac minis değil İşte bu nedenle: - Llama 3.1 70B BF16, 8x RTX 3090'larda - 50+ eşzamanlı talep - Toplu çıkarım - Sürekli veri taşıma Sadece bu değil: > ~2k bağlam her istek (prompt) > ~1.8k jeton çıktıda > 50 yanıt için 2 dakika 29 saniye Bu GPU alanı. Bunu Mac'te yapamazsınız. En azından henüz değil.