Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Якщо у вас є один RTX 3090 і ви хочете зараз найкращу локальну налаштуваність інференції, ось на чому я зупинився після тестування 5 відкритих моделей у 7 конфігураціях GPU цього місяця.
GPU: 1x RTX 3090 24GB
модель: Qwen 3.5 27B Щільний Q4_K_M (16.7GB)
Контекст: 262K (рідний максимум)
швидкість: генерація 35 ток/с, фіксована з 4K до 300K+
міркування: вбудований у ланцюг думок, виживає квант Q4
Конфігурація:
llama-server -ngl 99 -c 262144 -fa on --cache-type-k q4_0 --cache-type-v q4_0
Що це дає вам:
- 27B параметрів, всі активні у кожному токені
- відсутність зниження швидкості при заповненні контексту
- повний режим мислення на споживчому GPU
- 7 ГБ запасу голови VRAM після завантаження моделі
Тестував MoE (швидше, але менше глибини на токен) і щільний Hermes (така сама швидкість, погіршується під навантаженням). QWEN Dense потрапив у ідеальну середину для однієї відеокарти. Незабаром з'являться нові порівняння архітектури.
Яка у тебе одна відеокарта? Цікаво, які конфігурації використовують люди.
Найкращі
Рейтинг
Вибране
