メインコンテンツへスキップ
マーケット
Meme Pump
トラッカー
シグナル
リーダーボード
スワップ
ポートフォリオ
紹介
さらに見る
商品
DeFi
マケプレ
セキュリティ
開発者向け
X Layer
X Layer について学ぶ
X Layer エクスプローラー
チェーン間取引
開発者向けテクニカルドキュメント
テストネットフォーセット
GitHub
ウォレット API
ウォレット API を発見する
API ドキュメント
API キーを管理する
ブロックチェーンエクスプローラー
DAppでウォレットを連携する
Boost
X Launch
参加してトークンを獲得しよう
X キャンペーン
参加して報酬を獲得しよう
報酬センター
ボーナスとエアドロップを受け取る
アラート
言語
通貨
色の好み
OKX ウォレットをダウンロード
Web3 の詳細
お知らせ
戻る
日本語
简体中文
繁體中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
Norsk (bokmål)
Suomi
Svenska
Türkçe
戻る
戻る
詳しく知る
サポートセンター
トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
Hosico
+39.84%
USELESS
+16.62%
IKUN
+52.81%
gib
+30.08%
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
Bonk
+32.23%
ALON
-0.85%
LAUNCHCOIN
+1.52%
GOONC
+1.09%
KLED
-13.58%
#
Boop.Fun leading the way with a new launchpad on Solana.
BOOP
-0.92%
Boopa
-6.74%
PORK
+5.8%
Profile
samsja
@PrimeIntellectで最先端の研究
オリジナルを表示
samsja
1月1日 19:17
アシンクRLトレーニングの安定性は本当に大きく進歩しました つい最近までは、純粋なGRPOはマッチのミスマッチでTorch Compileでクラッシュしていました。しかし今では、エージェント型強化学習(Agentic RL)を扱う際には方針から大きく逸脱できます プライム-リルロス計算において非常に重要な詳細が多く、最新の安定性改善を一部のランでオンにするとKLミスマッチに大きな違いが出ます
534
samsja
2025年12月31日
私たちはprime-rlでポリシーディスティレーションを統合しました
474
トップ
ランキング
お気に入り