これとGavinのAIに関する考え投稿も聴きました。彼はスケーリング・ローズのホールディングの事前トレーニングにとても自信があるようで、私はただ...そうは思わない?議論は計算プッシュの事前学習の進歩に焦点を当てていますが、定義上、スケールアップのためにはそれに見合ったデータ量の増加が必要ではないでしょうか? 私たちは皆、イリヤの有名なプリトレーニングデータに関するセリフを知っているので、私の質問はもちろん、このデータはどこから来ているのかということです。合成データが事前学習にフィードバックされるという考えを指摘しているようですが、その考えは私にはあまり納得できません。 私は、モデルが自分でデータを作って事前学習するなら、進行できない混乱したウロボロスのようなシステムになるべきだという直感的な感覚を持っていました。それは、異なるクリエイターからの新しいデータに触れずに孤立して学ぶことです。しかし、自己生成の相乗データに基づく事前学習モデルの利点や限界についての論文は実際には読んだことがありません。 同じような考えや研究がある方はいらっしゃいますか?これは特にプレトレーニング(前トレーニング)に関しては付け加えておきますが、SFTやポストトレーニングなどではありません。