Le persone chiedono perché insisto sulle GPU e non su Mac Studios/Mac minis Ecco perché: - Llama 3.1 70B BF16 su 8x RTX 3090 - 50+ richieste concorrenti - Inferenza in batch - Throughput sostenuto Non solo: > ~2k contesto per richiesta (prompt) > ~1.8k token in output > 2 minuti e 29 secondi per 50 risposte Questo è territorio GPU. Non puoi fare questo su un Mac. Non ancora almeno.