1/ LLM-er som vurderer andre LLM-er høres effektivt ut... Inntil du spør hvem som setter reglene. Skjevhet, hinting og selgereffekter sniker seg raskt inn.
2/ Hos Inference Labs mener vi at selve evalueringen må kunne verifiseres. Hvis KI dømmer KI, trenger vi kryptografisk bevis, ikke stol-på-meg-målinger.
91