Wenn Sie eine einzelne RTX 3090 haben und das beste lokale Inferenz-Setup derzeit möchten, hier ist, was ich nach dem Testen von 5 Open-Source-Modellen über 7 GPU-Konfigurationen in diesem Monat herausgefunden habe. GPU: 1x RTX 3090 24GB Modell: Qwen 3.5 27B Dense Q4_K_M (16.7GB) Kontext: 262K (natives Maximum) Geschwindigkeit: 35 Tok/s Generierung, konstant von 4K bis 300K+ Begründung: integrierte Denkweise, übersteht Q4-Quantisierung Konfiguration: llama-server -ngl 99 -c 262144 -fa on --cache-type-k q4_0 --cache-type-v q4_0 Was Ihnen das gibt: - 27B Parameter, die bei jedem Token aktiv sind - keine Geschwindigkeitsverschlechterung, während der Kontext sich füllt - voller Denkmodus auf einer Verbrauchergrafikkarte - 7GB VRAM-Puffer nach dem Laden des Modells getestet MoE (schneller, aber weniger Tiefe pro Token) und dichte Hermes (gleiche Geschwindigkeit, verschlechtert sich unter Last). Qwen Dense hat den Sweet Spot für eine einzelne GPU getroffen. Weitere Architekturvergleiche folgen bald. Was ist Ihr Setup mit einer einzelnen GPU? Neugierig, welche Konfigurationen die Leute verwenden.