Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
если у вас есть одна RTX 3090 и вы хотите получить лучшую локальную настройку для вывода прямо сейчас, вот что я выбрал после тестирования 5 открытых моделей на 7 конфигурациях GPU в этом месяце.
GPU: 1x RTX 3090 24GB
модель: Qwen 3.5 27B Dense Q4_K_M (16.7GB)
контекст: 262K (максимум по умолчанию)
скорость: 35 ток/с генерация, стабильная от 4K до 300K+
обоснование: встроенная цепочка размышлений, выдерживает Q4 квантизацию
конфигурация:
llama-server -ngl 99 -c 262144 -fa on --cache-type-k q4_0 --cache-type-v q4_0
что это вам дает:
- 27B параметров все активны для каждого токена
- отсутствие снижения скорости по мере заполнения контекста
- полный режим размышлений на потребительском GPU
- 7GB VRAM свободного места после загрузки модели
tested MoE (быстрее, но меньше глубины на токен) и dense hermes (такая же скорость, ухудшается под нагрузкой). qwen dense достиг оптимального баланса для одного GPU. скоро будут опубликованы дополнительные сравнения архитектур.
какая у вас настройка с одним GPU? интересно, какие конфигурации используют люди.
Топ
Рейтинг
Избранное
