微調整に深刻な問題があります。 今日SFTやRLをしようとする人は、二つの極端な状況に追い込まれます。 1. 「使いやすく」なAPI、トレーニングプロセスのコントロールがほとんどないこと。 2. 完全なインフラ地獄で、チェックポイント、生のGPU、再入力、待機コスト、そして終わりのない配管処理に対処しなければならない。 その間はほとんどありません。 この二つの悪のうちよりマシな方を選ばなければならないチームと話をしたことがあります。ほとんどの人は他に選択肢がなく、インフラを管理できる人に多額の費用をかけてしまいます。 別の代替案を紹介します: HPC-AIチームは、インフラの地獄に悩まされることなくトレーニングコードを完全にコントロールできるファインチューニングSDKをリリースしました: ・カスタムSFTレシピが手に入る • RLまたはRVR(検証可能な報酬を伴う強化学習) ・ご自身の報酬関数を利用できます ・自分でトレーニングループを使える インフラ面のすべてを担当しています: • Kubernetesの設定には絶対に触らない ・クラスタスケジューラーには絶対に触れない ・GPUプロビジョニングには一切触れない • 分散型チェックポイントの配管には一切触れません これにより、より多くのチームにファインチューニングが可能になります。 「単純すぎて役に立たない」と「複雑すぎて悪夢」のどちらかを選ぶ必要はありません。 ここでの重要な考え方は非常にシンプルです。このモデルはアルゴリズム設計とインフラ工学を切り離しています。 もう一つあります: このモデルでは、GPUを時間単位でレンタルしたり、アイドルクラスターを処理する代わりにトークンごとに支払うことができます。
もし試してみたいなら、チームが私に共有してくれたコード(下記リンクに埋め込まれています)でサインアップできます: このコードから、最初のトレーニングジョブを実施するための無料バウチャー(約150万トークン)が10ドルも手に入ります。 こちらがSDK付きのGitHubリポジトリです: この投稿に協力してくださったHPC-AIチームに感謝します。
424