Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Rakensimme vahingossa itseään parantavia tekoälyjärjestelmiä. Tämä Oxfordin yliopiston tutkimus todistaa sen.
Useimmat olettavat, että mallin parannukset tulevat suuremmista arkkitehtuureista tai huolellisesti suunnitelluista vahvistusoppimisputkista.
Tämä teos osoittaa jotain hienovaraisempaa ja häiritsevämpää.
Jos otat mallin käyttöön, annat käyttäjien olla vuorovaikutuksessa sen kanssa, suodatat epäonnistumiset pois ja hienosäädät vain onnistuneita jäljityksiä, malli alkaa kehittää suunnittelukykyjään itsestään.
Ei nimenomaisia palkintoja, käsin laadittu opetussuunnitelma eikä ulkoista suunnittelijaa.
Vain iterointi.
Kirjoittajat kutsuvat tätä iteratiiviseksi käyttöönotoksi, ja he testaavat sitä hallituissa suunnitteluympäristöissä kuten Blocksworld, Rovers ja Sokoban.
Asetelma on yksinkertainen:
1. Ota LLM käyttöön suunnittelutehtäviin
2. Pidä vain ne suunnitelmat, jotka oikeasti toimivat
3. Hienosäädä seuraava versio näillä pätevillä jäljillä
Toista
Vain viiden sukupolven jälkeen suunnittelun suorituskyky yli kaksinkertaistuu kaikilla aloilla. Joissain tapauksissa se paranee 4–5-kertaiseksi. Vielä mielenkiintoisempaa on, että myöhemmät sukupolvet löytävät paljon pidempiä suunnitelmia kuin perusmalli, jotka osoittavat todellista jakelun ulkopuolista yleistystä, eivät pelkästään muotoilukikkaita tai promptien noudattamista.
Tässä on keskeinen oivallus.
Artikkeli osoittaa, että tämä prosessi on matemaattisesti vastaava vahvistusoppimisen kanssa, jossa on binäärinen palkitsemissignaali.
Mutta palkitsemisfunktiota ei koskaan kirjoiteta ylös.
...

Johtavat
Rankkaus
Suosikit
