1/ Evaluarea altor LLM-uri pare eficientă... Până întrebi cine stabilește regulile. Bias, hinting și efectele vânzătorilor se strecoară rapid.
2/ La Inference Labs, credem că evaluarea în sine trebuie verificabilă. Dacă AI judecă AI, avem nevoie de dovezi criptografice, nu de metrici de încredere în mine.
86