Har ikke lest hele artikkelen, som ikke er ute ennå, så jeg kan ikke uttale meg om detaljer, men jeg er glad for å se at mer metodologisk grundighet blir brukt i LLM som dommer. LLM-vurderinger er kjernen i et stort antall referansepunkter og brukes ofte uten klar statistisk validering.