Vaikka viimeisten kolmen kuukauden aikana on edistynyt jyrkästi, tekoälyn suorituskyky on edelleen sidottu tehtävien tuttuuteen. Alueilla, joita voidaan tiiviisti näytteisttää (ohjelmallisen generoinnin + verifioinnin avulla), suorituskyky on käytännössä rajoittamaton ja kasvaa jatkuvasti nykyisistä tasoista. Uusilla, tuntemattomilla aloilla suorituskyky pysyy matalana ja edistyminen vaatii edelleen uusia ideoita, ei vain lisää dataa ja laskentaa.
Taelin
Taelin13 tuntia sitten
Ok, luulen, että kokeiluni jättää tekoäly työskentelemään asioiden parissa 24/7 päättyy tähän. Se ei toimi. Koodi räjähtää monimutkaisuudessaan, tulokset eivät ole kovin hyviä, tekoäly ei pääse kovien seinien ohi (se ei vieläkään pysty edes *ymmärtämään* SupGenia), ja se on järjettömän kallista (kulutettu ~1000 viimeisen kahden päivän aikana). Parhaat tulokset ovat JS-kääntäjässä, pääasiassa siksi, että se on tuttu (verrattuna inetsiin), mutta ei kannata menettää kontrollia koodipohjasta. Uskon, että unelma siitä, että tekoälyt työskentelevät taustalla ja tekisivät todellista edistystä tärkeissä asioissa (eli todella uusissa asioissa), ei ole vielä täällä. Se on yhä kone, joka on jumissa omassa koulutusdatassaan, kykenemätön ajattelemaan laatikon ulkopuolelta. Se on loistava jo rakennettujen asioiden rakentamiseen. Mutta ei uusia asioita Lisäksi koodauksessa on yleensä aliarvostettu etu, että teet kahta asiaa samaan aikaan: rakennat koodipohjan *ja* opettelet sen. Tekoälyt tekevät siitä vain puolet. Toinen puoli on selvästi mahdoton 🤔
Benchmarkeissa, jotka kohdistuvat uusiin tehtäviin, yleinen benchmark-hakkeroinnin muoto, joka arbitraasoi tätä aukkoa, on tuottaa tiheä otos mahdollisista tehtävistä parametrisoimalla tilan manuaalisesti ja sitten brute-forc-menetelmällä. Erittäin kallista, mutta toimii. Tässä ei juuri voi tehdä vertailuarvon pätevyyden palauttamiseksi, paitsi lisätä tehtävätilan ulottuvuutta.
28