Les gens demandent pourquoi j'insiste sur les GPU et pas sur les Mac Studios/Mac minis Voici pourquoi : - Llama 3.1 70B BF16 sur 8x RTX 3090 - 50+ requêtes simultanées - Inférence par lot - Débit soutenu Ce n'est pas tout : > ~2k contexte par requête (invite) > ~1.8k tokens en sortie > 2 minutes 29 secondes pour 50 réponses C'est le territoire des GPU. Vous ne pouvez pas faire cela sur un Mac. Pas encore en tout cas.