これは非常に大きいです。 命中率を損なうことなく3×速く訓練できます。 Unslothは新しいTritonカーネル+自動梱包をリリースし、微調整のゲームが完全に変わってしまいました。 なぜこれが重要なのか、次の通りです: Qwen3-4Bはわずか3GB VRAMで微調整が可能になりました。それはコンシューマー用のGPUです。あなたのGPUです。 新作には以下が含まれます: ↳ 長いコンテキストで2.3倍高速な融合QK RoPEカーネル ↳ スマートパディングフリーパッキングはデフォルトで有効化されています ↳ FlashAttention 3、xFormers、SDPAで動作 ↳ VRAM使用率を30〜90%削減 この背後にある数学的構造は優雅です: 実際のデータセットは配列の長さが異なります。短い列を長いものに合わせてパディングし、計算を無駄にします。シーケンスの80%が短い場合、パッキングはその無駄を完全に排除して5倍のスピードアップをもたらします。 ローカルな微調整のハードルはどんどん下がっています。 「クラウドコンピューティングを買える人」から「自分のGPUで一番速く反復できる人」へと移行しています。 まずは、次のツイートでブログとスターターノートのリンクを共有しました。