トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
もしRTX 3090が1台で、今すぐ最高のローカル推論セットアップを求めているなら、今月7つのGPU構成で5つのオープンソースモデルをテストした結果、私が決めた方法を紹介します。
GPU:RTX 3090 1台 24GB
モデル:Qwen 3.5 27B Dense Q4_K_M(16.7GB)
コンテキスト:262K(ネイティブ最大容量)
速度:35 tok/s生成、4Kから300K+までフラット
理由:思考の連鎖が組み込まれ、Q4の定量を乗り越える
構成:
llama-server -ngl 99 -c 262144 -fa on --cache-type-k q4_0 --cache-type-v q4_0
これにより得られるもの:
- 27Bパラメータはすべてすべてのトークンで有効
- コンテキストが満たされる際の速度低下がない
- 消費者向けGPUでのフル推論モード
- モデル負荷後の7GB VRAM余裕
テスト済みのMoE(高速だがトークンあたりの深さは少ない)とdense hermes(同じ速度で負荷で劣化)。Qwen DenseはシングルGPUとしてちょうど良いポイントを迎えました。さらにアーキテクチャの比較も近日公開予定です。
シングルGPUの構成はどうなっていますか?みんなどんな設定を使っているのか気になります。
トップ
ランキング
お気に入り
