🚀 LongCat-Flash-Thinking-2601 技術レポート – 現在完全公開! 主な洞察: 🌍 大規模なエージェント型RL(14ページの深い掘り下げ!) 🔹 環境スケーリング:20+ドメインにまたがる10,000+実行可能で検証可能な環境を構築する自動化パイプラインの詳細な解説です。 🔹 強化学習インフラストラクチャ:32,000+の同時環境での非同期トレーニングをサポートするアップグレードされたDORAフレームワークで、ロングテールや高度に異種なタスクの安定性問題に取り組みます。 🛡️ 野生での頑健さ 🔹 ノイズ注入:もはや「温室効果」の成分は使わない。私たちは実際のノイズ(ユーザーやツールのノイズ)を体系的に分析し、それを直接トレーニングループに注入します。 🔹 カリキュラムRL:混沌として不完全な環境に対してモデルを徐々に強化するカリキュラムベースの戦略です。 🧠 ヘビーシンキングフレームワーク 🔹 並列推論:複数の独立した推論軌道を生成することで幅を広げます。 🔹 反復的要約:最終決定を下す前に、要約モデルを用いて並行した軌跡を振り返り統合し、深みを広げます。 🔹 コンテキストメモリ:長い範囲にわたって推論を一貫性を保つために設計された専用メモリモジュールです。 ⚡ ジグザグの注意 🔹 MLA+SSAを組み合わせたジグザグ接続設計で、計算量を削減しつつグローバルな情報フローを維持します。 🔹 トレーニング中にスパースバリアントへの切り替えは1.5×の高速化をもたらし、100万トークンのコンテキストをサポートし、長期コンテキストエージェント推論の将来のブレークスルーの基盤を築きます。 🔹 探求: 📊 SOTAを達成 検索、ツールの使用、数学的推論、コーディングなど、主要なエージェントベンチマークにわたるオープンソースモデル。 詳細が知りたい方は、ぜひ全文の技術レポートをご覧ください。 ・紙: ・ウェブサイト: • GitHub: ・ハグフェイス: