Do czego służy recenzja rówieśnicza? Wyobraź sobie, że #AI może dać technicznie poprawną opinię, która jest taka sama jak średnia ocena recenzenta, to czy naprawdę obchodzi nas, co ci konkretni recenzenci uważają za ważne („gust”)?
Andrew Ng
Andrew Ng25 lis 2025
Releasing a new "Agentic Reviewer" for research papers. I started coding this as a weekend project, and @jyx_su made it much better. I was inspired by a student who had a paper rejected 6 times over 3 years. Their feedback loop -- waiting ~6 months for feedback each time -- was painfully slow. We wanted to see if an agentic workflow can help researchers iterate faster. When we trained the system on ICLR 2025 reviews and measured Spearman correlation (higher is better) on the test set: - Correlation between two human reviewers: 0.41 - Correlation between AI and a human reviewer: 0.42 This suggests agentic reviewing is approaching human-level performance. The agent grounds its feedback by searching arXiv, so it works best in fields like AI where research is freely published there. It’s an experimental tool, but I hope it helps you with your research. Check it out here:
Borykam się z tym problemem jako recenzent: uważam, że #AI daje dość dokładne komentarze techniczne. Aby moja praca recenzencka miała naprawdę sens, muszę wierzyć, że moja osobista opinia i punkt widzenia są ważne. Ale czy opinie/gusty recenzentów powinny mieć znaczenie?
1,91K