si vous avez un seul RTX 3090 et que vous souhaitez la meilleure configuration d'inférence locale en ce moment, voici ce que j'ai trouvé après avoir testé 5 modèles open source sur 7 configurations GPU ce mois-ci. GPU : 1x RTX 3090 24 Go modèle : Qwen 3.5 27B Dense Q4_K_M (16,7 Go) contexte : 262K (max natif) vitesse : génération de 35 tok/s, stable de 4K à 300K+ raisonnement : chaîne de pensée intégrée, survit à la quantification Q4 configuration : llama-server -ngl 99 -c 262144 -fa on --cache-type-k q4_0 --cache-type-v q4_0 ce que cela vous donne : - 27B paramètres tous actifs à chaque token - pas de dégradation de la vitesse à mesure que le contexte se remplit - mode de raisonnement complet sur un GPU grand public - 7 Go de VRAM de marge après le chargement du modèle testé MoE (plus rapide mais moins de profondeur par token) et dense hermes (même vitesse, dégradé sous charge). qwen dense a atteint le juste milieu pour un GPU unique. d'autres comparaisons d'architecture arriveront bientôt. quelle est votre configuration de GPU unique ? curieux de savoir quelles configurations les gens utilisent.