Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Dacă aș fi a16z, yc sau sequoia, aș investi agresiv în startup-uri care construiesc metode noi de a colecta și adnota date din lumea reală.
> Miliarde de ore de date de condus
> Muncitorii din fabrică interacționând cu electrocasnice și utilaje grele
> Segmentarea audio cu o înțelegere dialectică și culturală profundă
> Date experimentale de laborator umed
> Colectare continuă și adnotare a urmelor agenților la scară de calcul
Când am construit LLM-uri, majoritatea datelor existau deja pe internet. A trebuit doar să răzuim, să curățăm și să scalăm. Dar, pe măsură ce ne apropiem de modelele de fundație a lumii, blocajul îl reprezintă datele de înaltă calitate, reale, bine adnotate.
Și calitatea adnotărilor contează. Există o diferență uriașă între:
"Măr pe copac"
și
"Mere coapte pe un copac. Vântul bate cu 2 mile pe oră. Temperatura este în jur de 18°C. ”
Întrebarea este simplă. Cât din lume poți surprinde de fapt?
Astăzi, LLM-urile știu că merele cad din cauza gravitației, nu pentru că înțeleg cauzalitatea, ci pentru că înțeleg extrem de bine corelațiile lingvistice. Înțelegerea structurii cauzale urmează.
Dacă aș construi spre acest viitor, aș ancora colectarea datelor în India și în alte regiuni din Asia de Sud și Sud-Est. Implementam hardware, colectam mii de ore de date despre activitatea umană, semnale de sănătate și semne vitale, și rulam continuu fluxuri de adnotări. Zi și noapte.
Dacă aș fi a16z, aș finanța fondatorii să facă asta.
S-ar putea să simt nevoia să o fac eu însumi.
Limită superioară
Clasament
Favorite
