Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Wenn Sie eine einzelne RTX 3090 haben und das beste lokale Inferenz-Setup derzeit möchten, hier ist, was ich nach dem Testen von 5 Open-Source-Modellen über 7 GPU-Konfigurationen in diesem Monat herausgefunden habe.
GPU: 1x RTX 3090 24GB
Modell: Qwen 3.5 27B Dense Q4_K_M (16.7GB)
Kontext: 262K (natives Maximum)
Geschwindigkeit: 35 Tok/s Generierung, konstant von 4K bis 300K+
Begründung: integrierte Denkweise, übersteht Q4-Quantisierung
Konfiguration:
llama-server -ngl 99 -c 262144 -fa on --cache-type-k q4_0 --cache-type-v q4_0
Was Ihnen das gibt:
- 27B Parameter, die bei jedem Token aktiv sind
- keine Geschwindigkeitsverschlechterung, während der Kontext sich füllt
- voller Denkmodus auf einer Verbrauchergrafikkarte
- 7GB VRAM-Puffer nach dem Laden des Modells
getestet MoE (schneller, aber weniger Tiefe pro Token) und dichte Hermes (gleiche Geschwindigkeit, verschlechtert sich unter Last). Qwen Dense hat den Sweet Spot für eine einzelne GPU getroffen. Weitere Architekturvergleiche folgen bald.
Was ist Ihr Setup mit einer einzelnen GPU? Neugierig, welche Konfigurationen die Leute verwenden.
Top
Ranking
Favoriten
