DApp Store | Web3 Hub for hendelser og spill

Populære emner

Her er denne ukens Ritual Research Digest, et nyhetsbrev som dekker det siste i verden av LLM-er og skjæringspunktet mellom Crypto x AI. Med hundrevis av artikler utgitt ukentlig, er det umulig å holde seg oppdatert med det siste. Vi leser slik at du ikke trenger å gjøre det.

RLVE: Skalering av forsterkningslæring for språkmodeller med adaptive verifiserbare miljøer Forfatterne introduserer RLVE for ettertrening, hvor de bruker «adaptive, verifiserbare miljøer» som genererer problemer i henhold til modellens ferdighetsnivå.

RLVE-metoden ble testet ved å trene OpenThinker3-1.5B ved bruk av RLVE-Gym, en samling av 400 forskjellige læringsmiljøer. Trening med RLVE førte til en forbedring på 3,37 % i resonnementsferdigheter samtidig som man brukte 3 ganger mindre beregning.

For god til å være dårlig: Om at LLM-er ikke klarer å rollespille skurker Dette arbeidet finner at AI-modeller trent til å være hjelpsomme og trygge ironisk nok er «for gode» til å rollespille skurker. LLM-er synker i ytelse, og sliter med trekk som bedragersk/manipulerende.

Sikkerhetsjustering som får AI-modeller til å avvise skadelige forespørsler, hindrer dem også i å autentisk simulere moralsk komplekse karakterer som trengs for oppgaver som kreativ skriving, spill og samfunnsvitenskap. De introduserer også en "Moral RolePlay"-benchmark for å teste LLM-er.

SSR: Sokratisk selvforbedring for resonnement i store språkmodeller Dette arbeidet introduserer SSR, som hjelper AI-modeller med å vurdere resonnement ved å dele opp svar i mindre deler, identifisere hvilke spesifikke steg som er ustabile, og rette dem.

SSR deler opp modellens respons i mindre «sokratiske steg», som er som underspørsmål/under-svar-par. Dette gjør det mulig å rette spesifikke feil i resonnementskjeden. På tvers av 5 benchmarks og 3 LLM-er overgår denne målrettede tilnærmingen metoder som blindt korrigerer seg selv.

SWE-tilstrekkelighet: Kan språkmodeller optimalisere virkelige repositorier på reelle arbeidsbelastninger? Dette arbeidet introduserer en benchmark for å teste hvor godt språkmodeller optimaliserer kode i virkelige programvareprosjekter. Den inkluderer 498 oppgaver fra populære ML-biblioteker.

Gitte repos-modeller må finne ytelsesflaskehalser og fikse dem. De finner at dagens beste AI-modeller oppnår mindre enn 15 % av eksperthastighetene. Modellene sliter med å finne riktig kode for å optimalisere, resonnere om hvordan funksjoner fungerer sammen, og holde redigeringene sine feilfrie.

Følg oss @ritualdigest for mer om alt som har med krypto x AI-forskning å gjøre, og @ritualnet lære mer om hva Ritual bygger.

778

Topp

Rangering

Favoritter