トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Thinking MachinesのTinkerがGAになるのは、しばらくぶりに実際に製品としてのトレーニングを感じられるリリースの一つです。
ほとんどのホスティング型ファインチューニングAPI(OpenAIスタイルも含む)は、クリーンなSFT実行が必要なときは素晴らしいですが、少しでもスパイスをしたいと思った瞬間に、カスタムカリキュラム、オンライン評価、報酬型のトレーニング後トレーニング、強化学習(RL)的なループ、奇妙なバッチやパッキングのトリックなど、すぐに限界に達してトレーニングスタックの半分を再構築することになります。
Tinkerは基本的にそれを逆にして、低レベルのプリミティブ(サンプル/forward_backward/optim_step/save_state)を含むトレーニングAPIを渡してくれます。つまり、あなたが本当に欲しいループを書くと、通常は1か月かかるインフラ作業(スケジューリング、スケーリング、プリエンプション、故障回復、なぜこの仕事が93%で終わったのかなど)をTinkerが担当します。
また、LoRA優先でカスタマイズのデフォルトとして最適です。反復が速くなり、コストも合理化され、複数のバリアントを使い続けられ、巨大なチェックポイントを重複せずに済むし、サービスも格段に実用的になります。また、話が単純化していない点も気に入っています。LoRAは正しく設定すれば多くのポストトレーニングデータセットのフルファインチューニングに匹敵しますが、小さなアダプターに大規模な挙動変化を詰め込もうとする場合(あるいはデータセットがアダプターの実効容量を圧倒してしまう場合)、そのボトルネックを感じて魔法のように消えることはありません。
唯一の欠点は小型モデルの床面です。もし目的は小さなエッジSLMなら、このツールは適していないでしょう。それでも、楽しみにしています。みんながどんな作品を作るのか楽しみです。
トップ
ランキング
お気に入り
