La gente pregunta por qué insisto en GPUs y no en Mac Studios/Mac minis Esta es la razón: - Llama 3.1 70B BF16 en 8x RTX 3090s - 50+ solicitudes concurrentes - Inferencia por lotes - Rendimiento sostenido No solo eso: > ~2k contexto por solicitud (prompt) > ~1.8k tokens en salida > 2 minutos 29 segundos para 50 respuestas Este es territorio de GPU. No puedes hacer esto en un Mac. Al menos, no todavía.