As pessoas perguntam por que insisto em GPUs e não Mac Studios/Mac minis É por isso: - Llama 3.1 70B BF16 em 8x RTX 3090s - 50+ solicitações simultâneas - Inferência em lote - Taxa de transferência sustentada E não só isso: > ~2k contexto por solicitação (prompt) > ~1,8k tokens na saída > 2 minutos e 29 segundos para 50 respostas Isso é território da GPU. Você não pode fazer isso em um Mac. Pelo menos ainda não.