一因はシリコンバレーやサンフランシスコのスタートアップ文化にあると思います。そこではAIラッパーの開発や既存のAIモデルの微調整が評価されます。「早く作り、壊す」というマントラと組み合わせて、「学ぶ時間をかけたり基礎を学ぶ」ことを推奨しません。 本質的に、若い研究者や起業家(西海岸に住む人)には、すぐに何かを発表し、トレンドを追って同僚の中で目立つこと、あるいは資金調達可能なスタートアップを持つことを求める文化的なプレッシャーが大きいのです。 つまり、多くの人は基礎を学んだり探求したりする機会を得られず、既存の研究や成果物の上にただ発展させていくだけです。 ワールドモデルの文脈では、3Dビジョンの仕組みやコンピュータグラフィックスの根本的な理解をする代わりに、ガウススプラット関連の研究やモデルを実行できることに過ぎません。 具現化されたAIの文脈では、さらに悪いと私は考えています。詳しく言うと、既存のVLAモデルを起動してロボットアームを微調整してマグカップを取る方がずっと簡単です。例えば、古典的な運動計画、グラスピング、操作、逆運動学などの制約を理解するのに数日かかる方がはるかに簡単です。 そして私が「もっと悪い」と言うのは、身体化されたAIではソフトウェアだけでなく物理的なシステムも扱うことになり、ハードウェアやソフトウェアシステムの開発や最適化を極めるのはまた別の課題だからです。