Thinking MachinesのTinkerがGAになるのは、しばらくぶりに実際に製品としてのトレーニングを感じられるリリースの一つです。 ほとんどのホスティング型ファインチューニングAPI(OpenAIスタイルも含む)は、クリーンなSFT実行が必要なときは素晴らしいですが、少しでもスパイスをしたいと思った瞬間に、カスタムカリキュラム、オンライン評価、報酬型のトレーニング後トレーニング、強化学習(RL)的なループ、奇妙なバッチやパッキングのトリックなど、すぐに限界に達してトレーニングスタックの半分を再構築することになります。 Tinkerは基本的にそれを逆にして、低レベルのプリミティブ(サンプル/forward_backward/optim_step/save_state)を含むトレーニングAPIを渡してくれます。つまり、あなたが本当に欲しいループを書くと、通常は1か月かかるインフラ作業(スケジューリング、スケーリング、プリエンプション、故障回復、なぜこの仕事が93%で終わったのかなど)をTinkerが担当します。 また、LoRA優先でカスタマイズのデフォルトとして最適です。反復が速くなり、コストも合理化され、複数のバリアントを使い続けられ、巨大なチェックポイントを重複せずに済むし、サービスも格段に実用的になります。また、話が単純化していない点も気に入っています。LoRAは正しく設定すれば多くのポストトレーニングデータセットのフルファインチューニングに匹敵しますが、小さなアダプターに大規模な挙動変化を詰め込もうとする場合(あるいはデータセットがアダプターの実効容量を圧倒してしまう場合)、そのボトルネックを感じて魔法のように消えることはありません。 唯一の欠点は小型モデルの床面です。もし目的は小さなエッジSLMなら、このツールは適していないでしょう。それでも、楽しみにしています。みんながどんな作品を作るのか楽しみです。