если у вас есть одна RTX 3090 и вы хотите получить лучшую локальную настройку для вывода прямо сейчас, вот что я выбрал после тестирования 5 открытых моделей на 7 конфигурациях GPU в этом месяце. GPU: 1x RTX 3090 24GB модель: Qwen 3.5 27B Dense Q4_K_M (16.7GB) контекст: 262K (максимум по умолчанию) скорость: 35 ток/с генерация, стабильная от 4K до 300K+ обоснование: встроенная цепочка размышлений, выдерживает Q4 квантизацию конфигурация: llama-server -ngl 99 -c 262144 -fa on --cache-type-k q4_0 --cache-type-v q4_0 что это вам дает: - 27B параметров все активны для каждого токена - отсутствие снижения скорости по мере заполнения контекста - полный режим размышлений на потребительском GPU - 7GB VRAM свободного места после загрузки модели tested MoE (быстрее, но меньше глубины на токен) и dense hermes (такая же скорость, ухудшается под нагрузкой). qwen dense достиг оптимального баланса для одного GPU. скоро будут опубликованы дополнительные сравнения архитектур. какая у вас настройка с одним GPU? интересно, какие конфигурации используют люди.