Cred că se întâmplă ceva important aici care merită descoperit: 1) majoritatea modelelor se supraajustează la evaluări. Totuși, avem nevoie de niște evaluări pentru a spune unui model dacă sunt buni detectori de prostii înainte să aruncăm o grămadă de bani pe returnarea prostiilor 2) Trebuie să existe o conștientizare a lingușitoriei și, în general, a fi agreabil nu este întotdeauna cel mai bun lucru 3) Cred că folosirea unei combinații de LLM-uri și oameni pentru a judeca ar fi valoroasă