分散型アプリ（DApp）ストア｜イベントおよびゲーム用 Web3 ハブ | OKX ウォレット

トレンドトピック

現在進行中のSWE-1.6トレーニングの初期プレビューをお届けします。同じ事前学習モデルで後処理されながら、SWE-1.5を大幅に改良しており、950 tok/sで同等の速度で動作します。SWE-Bench Proではトップクラスのオープンソースモデルを上回っています。プレビューモデルには、過剰な考えや過剰な自己検証といった望ましくない行動が依然として見られますが、改善を目指しています。Windsurfのごく一部のユーザーに早期アクセスを展開しています。

強化学習のレシピを洗練させ、インフラを拡大して、SWE-1.5の訓練に使った計算量の2桁以上の計算量を解放しました。強化学習環境の数を大幅に拡大し、さらなる強化学習トレーニングで改善が見られます。

モデルがより深く考え、難しいSWE-Bench Proの問題に対して反復を重ねていく様子を見るのは楽しいです。一方で、私たちは自分のドッグフード作りで過剰に考えすぎたり自己確認をしたりする傾向があります。インタラクティブ性と長期的な視野の思考の適切なバランスを見つけることは活発な研究分野です。

3ヶ月前より6倍速くトレーニングスタックを最適化しました。例えば、私たちのアルゴリズムはより高いステイルネスを許容し、推論エンジンを最大限に活用できるようになりました。私たちのブログ記事()では、トレーニングの最適化や非同期強化学習(async RL)のGPU割り当て管理方法について詳しく共有しています。

85

トップ

ランキング

お気に入り