Якщо у вас є один RTX 3090 і ви хочете зараз найкращу локальну налаштуваність інференції, ось на чому я зупинився після тестування 5 відкритих моделей у 7 конфігураціях GPU цього місяця. GPU: 1x RTX 3090 24GB модель: Qwen 3.5 27B Щільний Q4_K_M (16.7GB) Контекст: 262K (рідний максимум) швидкість: генерація 35 ток/с, фіксована з 4K до 300K+ міркування: вбудований у ланцюг думок, виживає квант Q4 Конфігурація: llama-server -ngl 99 -c 262144 -fa on --cache-type-k q4_0 --cache-type-v q4_0 Що це дає вам: - 27B параметрів, всі активні у кожному токені - відсутність зниження швидкості при заповненні контексту - повний режим мислення на споживчому GPU - 7 ГБ запасу голови VRAM після завантаження моделі Тестував MoE (швидше, але менше глибини на токен) і щільний Hermes (така сама швидкість, погіршується під навантаженням). QWEN Dense потрапив у ідеальну середину для однієї відеокарти. Незабаром з'являться нові порівняння архітектури. Яка у тебе одна відеокарта? Цікаво, які конфігурації використовують люди.