Anche dopo il notevole progresso degli ultimi 3 mesi, rimane il fatto che le prestazioni dell'AI sono legate alla familiarità con il compito. Nei domini che possono essere campionati densamente (tramite generazione e verifica programmatica), le prestazioni sono effettivamente illimitate e continueranno a crescere dai livelli attuali. Nei domini nuovi e sconosciuti, le prestazioni rimangono basse e ulteriori progressi richiedono ancora nuove idee, non solo più dati e potenza di calcolo.
Taelin
Taelin13 ore fa
Ok, penso che il mio esperimento di lasciare l'AI a lavorare su cose 24 ore su 24, 7 giorni su 7 finisca qui. Non funziona. Il codice esplode in complessità, i risultati non sono così buoni, l'AI non riesce a superare muri difficili (è ancora completamente incapace di *afferrare* SupGen), ed è incredibilmente costosa (spesi ~1k negli ultimi 2 giorni). I migliori risultati sono sul compilatore JS, principalmente perché è familiare (rispetto a inets), ma non vale la pena perdere il controllo sul codice. Penso che il sogno di avere AI che lavorano in background e fanno progressi reali su cose che contano (cioè, cose veramente nuove) non sia ancora arrivato. È ancora una macchina bloccata sui propri dati di addestramento, incapace di pensare fuori dagli schemi. È ottima per costruire cose che sono già state costruite. Ma non per cose nuove. Inoltre, programmare normalmente ha il vantaggio sottovalutato di fare due cose contemporaneamente: costruire un codice *e* impararlo. Le AI fanno solo metà di questo. L'altra metà è ovviamente impossibile 🤔
Per i benchmark che mirano a compiti nuovi, una forma comune di hacking dei benchmark che sfrutta questo divario è generare un campionamento denso di potenziali compiti parametrizzando manualmente lo spazio e poi forzandolo. Molto costoso, ma funziona. C'è poco che puoi fare per ripristinare la validità del benchmark qui, a parte aumentare la dimensionalità dello spazio dei compiti.
22