もしRTX 3090が1台で、今すぐ最高のローカル推論セットアップを求めているなら、今月7つのGPU構成で5つのオープンソースモデルをテストした結果、私が決めた方法を紹介します。 GPU:RTX 3090 1台 24GB モデル:Qwen 3.5 27B Dense Q4_K_M(16.7GB) コンテキスト:262K(ネイティブ最大容量) 速度:35 tok/s生成、4Kから300K+までフラット 理由:思考の連鎖が組み込まれ、Q4の定量を乗り越える 構成: llama-server -ngl 99 -c 262144 -fa on --cache-type-k q4_0 --cache-type-v q4_0 これにより得られるもの: - 27Bパラメータはすべてすべてのトークンで有効 - コンテキストが満たされる際の速度低下がない - 消費者向けGPUでのフル推論モード - モデル負荷後の7GB VRAM余裕 テスト済みのMoE(高速だがトークンあたりの深さは少ない)とdense hermes(同じ速度で負荷で劣化)。Qwen DenseはシングルGPUとしてちょうど良いポイントを迎えました。さらにアーキテクチャの比較も近日公開予定です。 シングルGPUの構成はどうなっていますか?みんなどんな設定を使っているのか気になります。