Kdybych byl a16z, yc nebo sequoia, agresivně bych investoval do startupů, které vytvářejí nové způsoby, jak sbírat a anotovat data z reálného světa. > Miliardy hodin dat z jízdy > Dělníci ve fabrice při práci s přístroji a těžkými stroji > Segmentace zvuku s hlubokým dialektickým a kulturním porozuměním > Experimentální data z mokré laboratoře > Kontinuální sběr a anotace agentních stop na výpočetním měřítku Když jsme stavěli LLM, většina dat už existovala na internetu. Stačilo jen škrábat, čistit a škálovat. Ale jak směřujeme k modelům světových základů, úzkým místem jsou vysoce kvalitní, reálná a dobře anotovaná data. A kvalita anotací je důležitá. Je obrovský rozdíl mezi: "Jablko na stromě" a "Zralá jablka na stromě. Vítr fouká rychlostí 2 míle za hodinu. Teplota je kolem 18°C. ” Otázka je jednoduchá. Kolik světa vlastně můžete zachytit? Dnes LLM vědí, že jablka padají kvůli gravitaci, ne proto, že by chápali kauzalitu, ale protože velmi dobře rozumí jazykovým korelacím. Následuje pochopení kauzální struktury. Kdybych se k této budoucnosti směřoval, zakotvil bych sběr dat v Indii a dalších regionech jižní a jihovýchodní Asie. Nasazoval bych hardware, sbíral tisíce hodin dat o lidské aktivitě, zdravotních signálech a vitálních funkcích a neustále spouštěl anotační pipeline. Ve dne v noci. Kdybych byl a16z, financoval bych zakladatele na tohle. Možná mám chuť to udělat sama.