Gdybym był a16z, yc lub sequoia, inwestowałbym agresywnie w startupy, które opracowują nowe sposoby zbierania i adnotowania danych z rzeczywistego świata. > Biliony godzin danych z jazdy > Pracownicy fabryk w interakcji z urządzeniami i ciężkim sprzętem > Segmentacja dźwięku z głębokim zrozumieniem dialektów i kultury > Dane z eksperymentów w mokrej laboratoriach > Ciągłe zbieranie i adnotowanie śladów agentów na skali obliczeniowej Kiedy budowaliśmy LLM, większość danych już istniała w internecie. Musieliśmy tylko je zeskrobać, oczyścić i skalować. Ale w miarę jak przechodzimy do modeli podstawowych świata, wąskim gardłem są dane wysokiej jakości, z rzeczywistego świata, dobrze adnotowane. A jakość adnotacji ma znaczenie. Istnieje ogromna różnica między: „Jabłko na drzewie” a „Dojrzałe jabłka na drzewie. Wiatr wieje z prędkością 2 mil na godzinę. Temperatura wynosi około 18°C.” Pytanie jest proste. Ile świata możesz naprawdę uchwycić? Dziś LLM wiedzą, że jabłka spadają z powodu grawitacji, a nie dlatego, że rozumieją przyczynowość, ale dlatego, że doskonale rozumieją korelacje językowe. Zrozumienie struktury przyczynowej przychodzi następnie. Gdybym budował w kierunku tej przyszłości, zakotwiczyłbym zbieranie danych w Indiach i innych regionach Azji Południowej i Południowo-Wschodniej. Wdrożyłbym sprzęt, zbierał tysiące godzin danych o aktywności ludzkiej, sygnałach zdrowotnych i parametrach życiowych, a także prowadziłbym ciągłe procesy adnotacji. Dzień i noc. Gdybym był a16z, finansowałbym założycieli, aby to zrobili. Mógłbym mieć po prostu chęć, aby zrobić to sam.