Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Tässä on tämän viikon Ritual Research Digest, uutiskirje, joka kattaa viimeisimmät tiedot LLM:ien maailmasta ja Crypto x AI:n risteyskohdasta.
Viikoittain julkaistaan satoja lehtiä, joten on mahdotonta pysyä ajan tasalla uusimmasta uutisesta. Me teemme lukemisen, jotta sinun ei tarvitse.

Think-at-Hard: Valikoivat piilevät iteraatiot päättelykielen mallien parantamiseksi
Dynaaminen latentti iterointi on vaikeaa: se tarvitsee täyden kontekstin, adaptiiviset tavoitteet, parametrien uudelleenkäytön, mutta politiikan ja laadun kytkentä aiheuttaa koulutuksen epävakautta.


Tämä työ esittelee TaH:n, dynaamisen latentin ajattelun, joka iteroi vain kovien tokenien yli kehittämällä erikoismallikaaren ja stabiilin harjoitusmenetelmän, soveltaen valikoivasti latenttia iterointia.
Hienosäädettynä Qwen3-0.6/1.7B-Basesta, TaH saavuttaa +4 % viiden päättelykriteerin yli.

P1: Fysiikan olympialaisten hallitseminen vahvistusoppimisen avulla
Tämä työ esittelee P1:n, OSS:n fysiikan päättelymallien perheen. Ne yhdistävät sekä train-time- että test-time -skaalauksen, varmistaen vahvemman päättelykyvyn, joka on adaptoitu päättelyssä.

P1-mallit koulutetaan puhtaasti RL-jälkikoulutuksen kautta perus-LM:illä monivaiheisessa RL-kehyksessä. Testiaikaa varten he yhdistävät P1-mallit PhysicsMinionsin agenttikehykseen.
Heidän mallinsa P1-235B-A22B saavuttaa kultamitalin IPhO 2025 -mallissa.

MiroThinker: Avoimen lähdekoodin tutkimusagenttien suorituskyvyn rajojen laajentaminen mallin, kontekstin ja interaktiivisen skaalauksen avulla
Artikkelissa esitellään tutkimusagentti, joka haastaa suorituskykyä kolmessa ulottuvuudessa: mallin koko, kontekstin pituus ja vuorovaikutussyvyys.

Syvällisten päättelyprosessien ylläpitämiseksi mallissa on 256K kontekstiikkuna ja jopa 600 työkalukutsua per tehtävä.
MiroThinker v1.0, joka on varustettu yksinkertaisella ReAct-agentilla, saavuttaa SOTA-suorituskyvyn avoimen lähdekoodin tutkimusagenteissa.


Mitä vaaditaan, jotta voi olla hyvä tekoälytutkimusagentti? Ideaatiodiversiteetin roolin tutkiminen
Tässä artikkelissa ehdotetaan menetelmiä agentin ideoiden monimuotoisuuden kvantifioimiseksi ja hallitsemiseksi. Agenttirakenteiden valinta vaikuttaa merkittävästi ideoiden monimuotoisuuteen.


Kontrolloidun kokeellisen suunnittelun avulla he muodostavat kausaalisen suhteen, mikä osoittaa, että ideatointien monimuotoisuuden lisääminen johtaa parempaan suorituskykyyn MLE-työtehtävissä. Ne myös osoittavat luotettavuutta, kun niitä arvioidaan vaihtoehtoisilla suorituskykymittareilla.

DR Tulu: Vahvistusoppiminen ja kehittyvät arviointikriteerit syvälliseen tutkimukseen
Tämä artikkeli kouluttaa syvätutkimusTulu-kielen (DR Tulu-8B) avoimiin, pitkämuotoisiin syvällisiin tutkimustehtäviin.

Pitkän muodon tehtävien varmennuksen käsittelemiseksi DR-Tulu hiotaan korkealaatuisella käyttäjädatalla, ja koulutetaan sitten RL:n kautta kehittyvien arviointikriteerien (RLER) avulla, joissa arviointikriteerit kehittyvät samanaikaisesti politiikkamallin kanssa koulutuksen aikana. Tulokset ovat parempia kuin vahvimmat avoimet 8-32-mallit.

Seuraa meitä @ritualdigest saadaksesi lisätietoja kaikesta krypto x AI -tutkimuksesta ja
@ritualnet oppia lisää siitä, mitä Ritual rakentaa.
3,13K
Johtavat
Rankkaus
Suosikit

