Если бы я был a16z, yc или sequoia, я бы активно инвестировал в стартапы, которые разрабатывают новые способы сбора и аннотирования данных из реального мира. > Миллиарды часов данных о вождении > Рабочие на фабриках, взаимодействующие с приборами и тяжелой техникой > Сегментация аудио с глубоким диалектным и культурным пониманием > Экспериментальные данные из мокрой лаборатории > Непрерывный сбор и аннотирование следов агентов в масштабах вычислений Когда мы создавали LLM, большая часть данных уже существовала в интернете. Нам просто нужно было собрать, очистить и масштабировать. Но по мере того как мы движемся к мировым фундаментальным моделям, узким местом являются высококачественные, реальные, хорошо аннотированные данные. И качество аннотации имеет значение. Существует огромная разница между: "Яблоко на дереве" и "Спелые яблоки на дереве. Ветер дует со скоростью 2 мили в час. Температура около 18°C." Вопрос прост. Сколько мира вы действительно можете захватить? Сегодня LLM знают, что яблоки падают из-за гравитации, а не потому, что они понимают причинно-следственные связи, а потому что они очень хорошо понимают языковые корреляции. Понимание причинной структуры будет следующим шагом. Если бы я строил будущее, я бы сосредоточил сбор данных в Индии и других регионах Южной и Юго-Восточной Азии. Я бы развернул оборудование, собрал тысячи часов данных о человеческой активности, сигналах здоровья и жизненных показателях и непрерывно запускал бы аннотационные конвейеры. Днем и ночью. Если бы я был a16z, я бы финансировал основателей для этого. У меня могло бы возникнуть желание сделать это самому.