Lanserer en ny "Agentic Reviewer" for forskningsartikler. Jeg begynte å kode dette som et helgeprosjekt, og @jyx_su gjorde det mye bedre. Jeg ble inspirert av en student som fikk en oppgave avvist seks ganger over tre år. Deres tilbakemeldingssløyfe – å vente ~6 måneder på tilbakemelding hver gang – var smertefullt langsom. Vi ønsket å se om en agentisk arbeidsflyt kan hjelpe forskere med å iterere raskere. Da vi trente systemet på ICLR 2025-gjennomganger og målte Spearman-korrelasjon (høyere er bedre) på testsettet: - Korrelasjon mellom to menneskelige vurderere: 0,41 - Korrelasjon mellom AI og en menneskelig vurderer: 0,42 Dette tyder på at agentisk gjennomgang nærmer seg menneskelig ytelse. Agenten forankrer tilbakemeldingen sin ved å søke i arXiv, så det fungerer best i felt som AI hvor forskning publiseres fritt. Det er et eksperimentelt verktøy, men jeg håper det hjelper deg med forskningen din. Sjekk det ut her: