DApp Store | Hub Web3 pour les événements et les jeux

Rubriques tendance

si vous avez un seul RTX 3090 et que vous souhaitez la meilleure configuration d'inférence locale en ce moment, voici ce que j'ai trouvé après avoir testé 5 modèles open source sur 7 configurations GPU ce mois-ci. GPU : 1x RTX 3090 24 Go modèle : Qwen 3.5 27B Dense Q4_K_M (16,7 Go) contexte : 262K (max natif) vitesse : génération de 35 tok/s, stable de 4K à 300K+ raisonnement : chaîne de pensée intégrée, survit à la quantification Q4 configuration : llama-server -ngl 99 -c 262144 -fa on --cache-type-k q4_0 --cache-type-v q4_0 ce que cela vous donne : - 27B paramètres tous actifs à chaque token - pas de dégradation de la vitesse à mesure que le contexte se remplit - mode de raisonnement complet sur un GPU grand public - 7 Go de VRAM de marge après le chargement du modèle testé MoE (plus rapide mais moins de profondeur par token) et dense hermes (même vitesse, dégradé sous charge). qwen dense a atteint le juste milieu pour un GPU unique. d'autres comparaisons d'architecture arriveront bientôt. quelle est votre configuration de GPU unique ? curieux de savoir quelles configurations les gens utilisent.

Meilleurs

Classement

Favoris