As pessoas perguntam por que insisto em GPUs e não em Mac Studios/Mac minis É por isso: - Llama 3.1 70B BF16 em 8x RTX 3090s - 50+ pedidos simultâneos - Inferência em lote - Vazão sustentada Não só isso: > ~2k contexto por pedido (prompt) > ~1.8k tokens na saída > 2 mins 29 secs para 50 respostas Este é território de GPU. Não se pode fazer isso num Mac. Pelo menos, não ainda.