Si yo fuera a16z, yc o sequoia, estaría invirtiendo agresivamente en startups que están desarrollando formas novedosas de recopilar y anotar datos del mundo real. > Miles de millones de horas de datos de conducción > Trabajadores de fábrica interactuando con electrodomésticos y maquinaria pesada > Segmentación de audio con profunda comprensión dialéctica y cultural > Datos experimentales de laboratorio húmedo > Recogida y anotación continua de trazas de agentes a escala de cálculo Cuando construimos LLMs, la mayoría de los datos ya existían en internet. Solo teníamos que raspar, limpiar y escalar. Pero a medida que avanzamos hacia los modelos de fundación mundial, el cuello de botella son los datos de alta calidad, del mundo real y bien anotados. Y la calidad de las anotaciones importa. Hay una diferencia enorme entre: "Manzana en un árbol" y "Manzanas maduras en un árbol. El viento sopla a 2 millas por hora. La temperatura ronda los 18°C. ” La pregunta es sencilla. ¿Cuánto del mundo puedes capturar realmente? Hoy en día, los LLM saben que las manzanas caen por la gravedad, no porque entiendan la causalidad, sino porque entienden extremadamente bien las correlaciones lingüísticas. A continuación viene entender la estructura causal. Si tuviera que construir hacia ese futuro, anclaría la recopilación de datos en India y otras regiones del sur y sudeste asiático. Desplegaría hardware, recogería miles de horas de datos de actividad humana, señales de salud y constantes, y ejecutaría pipelines de anotación de forma continua. Día y noche. Si yo fuera a16z, financiaría a fundadores para hacer esto. Puede que simplemente tenga ganas de hacerlo yo mismo.