エージェントのVLMモデルを持ち、3Dシーンをシェードしレンダリングすることは、「ピクセルだけで十分だ」という考え方に対する究極の反例です。 リアルタイムビデオは強力で、新しいメディアです。しかし、明示的な3Dは依然として非常に有用です。それに、このドーナツはお腹が空くんだ。