Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
si vous avez un seul RTX 3090 et que vous souhaitez la meilleure configuration d'inférence locale en ce moment, voici ce que j'ai trouvé après avoir testé 5 modèles open source sur 7 configurations GPU ce mois-ci.
GPU : 1x RTX 3090 24 Go
modèle : Qwen 3.5 27B Dense Q4_K_M (16,7 Go)
contexte : 262K (max natif)
vitesse : génération de 35 tok/s, stable de 4K à 300K+
raisonnement : chaîne de pensée intégrée, survit à la quantification Q4
configuration :
llama-server -ngl 99 -c 262144 -fa on --cache-type-k q4_0 --cache-type-v q4_0
ce que cela vous donne :
- 27B paramètres tous actifs à chaque token
- pas de dégradation de la vitesse à mesure que le contexte se remplit
- mode de raisonnement complet sur un GPU grand public
- 7 Go de VRAM de marge après le chargement du modèle
testé MoE (plus rapide mais moins de profondeur par token) et dense hermes (même vitesse, dégradé sous charge). qwen dense a atteint le juste milieu pour un GPU unique. d'autres comparaisons d'architecture arriveront bientôt.
quelle est votre configuration de GPU unique ? curieux de savoir quelles configurations les gens utilisent.
Meilleurs
Classement
Favoris
