Om jag vore a16z, yc eller sequoia, skulle jag satsa på att satsa aktivt på startups som bygger nya sätt att samla in och annotera verklig data. > Miljarder timmars kördata > Fabriksarbetare som interagerar med apparater och tunga maskiner > Ljudsegmentering med djup dialektisk och kulturell förståelse > Våtlabbexperimentella data > Kontinuerlig insamling och annotering av agentspår i beräkningsskala När vi byggde LLM:er fanns det mesta av datan redan på internet. Vi behövde bara skrapa, rengöra och skala. Men när vi närmar oss världsbasismodeller är flaskhalsen högkvalitativ, verklig och välkommenterad data. Och annoteringskvaliteten spelar roll. Det är en enorm skillnad mellan: "Äpple på ett träd" och "Mogna äpplen på ett träd. Vinden blåser i 3 kilometer i timmen. Temperaturen är runt 18°C. ” Frågan är enkel. Hur mycket av världen kan du faktiskt fånga? Idag vet LLM:er att äpplen faller på grund av gravitationen, inte för att de förstår kausalitet, utan för att de förstår språkkorrelationer extremt väl. Att förstå den kausala strukturen kommer därefter. Om jag skulle bygga mot den framtiden skulle jag ankra datasamlingen i Indien och andra syd- och sydostasiatiska regioner. Jag skulle distribuera hårdvara, samla in tusentals timmar av data om mänsklig aktivitet, hälsosignaler och vitalparametrar, och köra annoteringspipelines kontinuerligt. Dag och natt. Om jag vore A16z skulle jag finansiera grundare för att göra detta. Jag kanske bara får lust att göra det själv.