Wenn ich a16z, yc oder Sequoia wäre, würde ich aggressiv in Startups investieren, die neuartige Wege entwickeln, um reale Daten zu sammeln und zu annotieren. > Milliarden von Stunden Fahrdaten > Fabrikarbeiter, die mit Geräten und schweren Maschinen interagieren > Audio-Segmentierung mit tiefem dialektalem und kulturellem Verständnis > Wet-Lab-Experimentaldaten > Kontinuierliche Sammlung und Annotation von Agentenspuren im Rechenmaßstab Als wir LLMs gebaut haben, existierten die meisten Daten bereits im Internet. Wir mussten sie nur scrapen, bereinigen und skalieren. Aber während wir uns auf weltweite Fundamentmodelle zubewegen, ist der Engpass qualitativ hochwertige, reale, gut annotierte Daten. Und die Qualität der Annotation ist wichtig. Es gibt einen riesigen Unterschied zwischen: „Apfel an einem Baum“ und „Reife Äpfel an einem Baum. Der Wind weht mit 2 Meilen pro Stunde. Die Temperatur liegt bei etwa 18 °C.“ Die Frage ist einfach. Wie viel von der Welt kannst du tatsächlich erfassen? Heute wissen LLMs, dass Äpfel fallen, weil es Schwerkraft gibt, nicht weil sie Kausalität verstehen, sondern weil sie Sprachkorrelationen extrem gut verstehen. Das Verständnis der kausalen Struktur kommt als Nächstes. Wenn ich auf diese Zukunft hinarbeiten würde, würde ich die Datensammlung in Indien und anderen süd- und südostasiatischen Regionen verankern. Ich würde Hardware bereitstellen, tausende Stunden menschlicher Aktivitätsdaten, Gesundheitsdaten und Vitalzeichen sammeln und kontinuierlich Annotation-Pipelines betreiben. Tag und Nacht. Wenn ich a16z wäre, würde ich Gründer finanzieren, um dies zu tun. Ich könnte einfach den Drang haben, es selbst zu tun.