シグモイドの階段 ドワルケシュの記事を読んだ後、かなり心配していたリファレンスに調べてみました。投稿の中で彼はこう述べています: 「Toby Ordは素晴らしい投稿をしており、異なるOシリーズのベンチマークチャート間の点と点を巧みにつなげており、『GPTレベルに似たブーストを得るためには、総強化学習計算量を1,000,000倍ほどスケールアップする必要がある』と示唆しています。」 これだと、物事が停滞しそうに聞こえます。 トビーは私が心配していた二つのことを言っています。 1.「印象的な成果は見られましたが、それは非常に低い基盤から始めた場合にのみ有効でした。「もうこれ以上進めるのはコストがかかりすぎる」と述べました。 2.「強化学習訓練が実効限界に近づいている今、より多くの計算をより多くの知能に効果的に変換する能力を失った可能性があります。」 この主張がどれほど正当なのか、そして強化学習を拡大すべき反対の主張は何なのかを周囲に尋ねました。 親しい友人がこう言いました。「そうですね、無邪気に強化学習の計算をスケーリングし続けると、スケーリングは悪くなります。でも、それはやめておけ!だからこそ、多くの現実環境環境会社が存在するのです。より良いアプローチは、より新しく、より難しい環境にスケールすることです。" 少し考えた結果、さらにこうまとめる方法を見つけました。「階段を新しいタスクや世界、目標のためのシグモイドとして想像することは、しばらく続けられるように考える最も役立つ方法だ」と。