Chiar și după progresul abrupt din ultimele 3 luni, rămâne că performanța AI este legată de familiaritatea cu sarcinile. În domeniile care pot fi eșantionate dens (prin generare + verificare programatică), performanța este practic nelimitată și va continua să crească față de nivelurile actuale. În domenii noi, necunoscute, performanța rămâne scăzută, iar progresul continuu necesită în continuare idei noi, nu doar mai multe date și calcul.
Taelin
TaelinCu 13 ore în urmă
Ok, cred că experimentul meu de a lăsa AI-ul să lucreze 24/7 se termină aici. Nu funcționează. Codul explodează în complexitate, rezultatele nu sunt chiar grozave, AI-ul nu poate trece de ziduri dure (încă nu poate nici măcar *înțelege* SupGen), și este incredibil de scump (a cheltuit ~1k în ultimele 2 zile). Cele mai bune rezultate sunt pe compilatorul JS, în principal pentru că este familiar (comparativ cu inets), dar nu merită să pierzi controlul asupra codului. Cred că visul de a avea AI-uri care să lucreze pe fundal și să facă progrese reale în ceea ce contează (adică lucruri cu adevărat noi) nu a ajuns încă. Este încă o mașină blocată de propriile date de antrenament, incapabilă să gândească în afara cutiei. Este grozav pentru a construi lucruri care au fost deja construite. Dar nu lucruri noi De asemenea, programarea are de obicei avantajul subapreciat că faci două lucruri în același timp: construiești o bază de cod *și* o înveți. AI-urile fac doar jumătate din asta. Cealaltă jumătate este evident imposibilă 🤔
Pentru benchmark-urile care vizează sarcini noi, o formă comună de hacking de benchmark care arbitrează această diferență este generarea unui eșantionament dens de sarcini potențiale prin parametrizarea manuală a spațiului și apoi forțarea brută. Foarte scump, dar funcționează. Nu poți face mare lucru pentru a restabili validitatea benchmark-ului aici, în afară de a crește dimensionalitatea spațiului de sarcini.
30