La gente pregunta por qué insisto en las GPUs y no Mac Studios/Mac minis Por eso: - Llama 3.1 70B BF16 en 8x RTX 3090 - 50+ solicitudes concurrentes - Inferencia por lotes - Rendimiento sostenido Y no solo eso: > ~2k contexto por solicitud (prompt) > ~1,8k tokens en salida > 2 minutos y 29 segundos para 50 respuestas Esto es territorio de la GPU. No puedes hacer esto en un Mac. Al menos no todavía.