Se fossi a16z, yc o sequoia, investirei aggressivamente in startup che stanno costruendo modi innovativi per raccogliere e annotare dati del mondo reale. > Milioni di ore di dati di guida > Operai di fabbrica che interagiscono con elettrodomestici e macchinari pesanti > Segmentazione audio con profonda comprensione dialettale e culturale > Dati sperimentali di laboratorio umido > Raccolta e annotazione continua delle tracce degli agenti su scala computazionale Quando abbiamo costruito i LLM, la maggior parte dei dati esisteva già su Internet. Dovevamo solo raccogliere, pulire e scalare. Ma mentre ci muoviamo verso modelli fondazionali globali, il collo di bottiglia è rappresentato da dati di alta qualità, reali e ben annotati. E la qualità dell'annotazione conta. C'è una differenza enorme tra: "Mela su un albero" e "Mele mature su un albero. Il vento soffia a 2 miglia all'ora. La temperatura è di circa 18°C." La domanda è semplice. Quanto del mondo puoi effettivamente catturare? Oggi, i LLM sanno che le mele cadono a causa della gravità, non perché comprendano la causalità, ma perché comprendono estremamente bene le correlazioni linguistiche. Comprendere la struttura causale viene dopo. Se stessi costruendo verso quel futuro, ancorerei la raccolta dei dati in India e in altre regioni del Sud e Sud-est asiatico. Distribuirei hardware, raccoglierei migliaia di ore di dati sull'attività umana, segnali di salute e parametri vitali, e gestirei continuamente pipeline di annotazione. Giorno e notte. Se fossi a16z, finanziare i fondatori per farlo.