Oamenii mă întreabă de ce insist să folosesc plăci video și nu Mac Studios/Mac Mini De aceea: - Llama 3.1 70B BF16 pe 8x RTX 3090 - 50+ cereri concurente - Inferența pe loturi - Debit susținut Nu doar atât: > ~2k context per cerere (prompt) > ~1,8k jetoane la ieșire > 2 minute și 29 secunde pentru 50 de răspunsuri Acesta este teritoriul GPU-urilor. Nu poți face asta pe un Mac. Cel puțin nu încă.