もし私がa16z、yc、またはsequoiaなら、実世界のデータ収集と注釈を新しく開発しているスタートアップに積極的に投資するでしょう。 > 数十億時間の運転データ > 工場労働者が家電や重機と接触する様子 > 深い弁証法的かつ文化的理解を伴う音声セグメンテーション > ウェットラボ実験データ > 計算スケールでのエージェントトレースの連続収集および注釈付け 私たちがLLMを構築した当時、ほとんどのデータはすでにインターネット上に存在していました。私たちはただ削って掃除して、スケールするだけでした。しかし、世界的な基礎モデルに近づくにつれて、ボトルネックは高品質で実世界でよく注釈されたデータです。 そして注釈の質も重要です。以下には大きな違いがあります: 「木の上のリンゴ」 そして 「木の熟したリンゴ。風は時速2マイルで吹いています。気温は約18°Cです。” 質問はシンプルです。実際に世界のどれだけを捉えられるのでしょうか? 今日、LLMはリンゴが重力によって落ちることを知っていますが、それは因果関係を理解しているからではなく、言語の相関を非常によく理解しているからです。次は因果構造の理解です。 もしその未来に向けて築くなら、インドや他の南アジア・東南アジア地域を拠点にデータ収集を拠点にしたいと思います。ハードウェアを展開し、何千時間もの人間の活動データ、健康信号、バイタルを収集し、注釈パイプラインを継続的に実行します。昼も夜も。 もし私がa16zなら、創業者に資金を提供してやるでしょう。 自分でもやりたくなるかもしれません。