LongCatチームのこの論文は、現代のAI研究で避けられなくなっている疑問に取り組みます。それは、ベンチマークで優れたように見える推論モデルが、実際の混沌とした環境に落とされるとなぜ苦戦するのか、ということです。 著者らは、単に考えるだけでなく行動することも目的としている、560BパラメータのMixture-of-Expertモデル「LongCat-Flash-Thinking-2601」を紹介しています。中心的な主張は、主体推論はより良い思考の連鎖だけでは生まれないということです。環境、道具、騒音、失敗との継続的な相互作用から生まれます。 技術的な動きは微妙ですが重要です。推論を静的なテキストの問題として扱うのではなく、論文はそれを閉じたループのプロセスとして捉えています。すなわち、計画を観察→行動→→フィードバックを受け取り→修正。 その変化はあらゆる場所で変化をもたらします。データ構築、トレーニングアルゴリズム、インフラ、さらには推論時の挙動に至るまでです。 大きな貢献の一つが環境スケーリングです。数個の手作りしたエージェントベンチマークに頼るのではなく、著者らは20+ドメインにわたる1万以上の実行可能環境を生成する自動化されたパイプラインを構築しています。各環境は実際のツール依存関係、検証済みのデータベース、複数の有効なソリューションパスに基づいています。難易度はヒューリスティックではなく構造的にスケールします。 こうした環境での訓練は、通常は騒音の中で崩壊してしまう。したがって、論文は明確に現実世界の不完全さをモデル化しています。例えば、曖昧な指示、工具の故障、部分的な出力です。 ノイズは例外として扱われていません。これはカリキュラムに組み込まれており、徐々に複雑さを増していくので、堅牢さは後で補うのではなく学習されます。 さらに、非同期強化学習(DORA)を拡張し、長尾の多ターン相互作用を大規模に処理し、数万の同時環境でもトレーニングを安定させます。 推論段階で、モデルはヘビーシンキングモードを導入します。一つの長い思考の連鎖ではなく、並行した推論の道筋を走り、それらを二次的な内省段階で集約します。これにより、推論の深さと幅の両方が拡大し、複雑な課題において自己整合性を常に上回ります。 その結果は驚くべきものです。LongCat-Flash-Thinking-2601は、BrowseComp、τ²-Bench、VitaBenchなどのエージェントベンチマークでオープンソースモデルの中で最先端のパフォーマンスを示しつつ、数学、コーディング、検索のクローズドモデルと競合し続けています。 さらに重要なのは、騒音の多い条件下での性能低下がはるかに少ないことです。 より広い意味合いは不快ですが明確です:推論の質がもはやボトルネックではありません。一般化はそうです。そして一般化はプロンプトではなく環境から生まれます。 本論文は、デモの外で働くエージェントを望むなら、クリーンで想像上の世界での訓練をやめなければならないと主張しています。本当の知性は、壊れた場所で鍛えられる。 論文:LongCat-Flash-Thinking-2601技術報告書