Myslím, že se tu děje něco důležitého, co stojí za to zjistit: 1) většina modelů přešla na hodnocení. Nicméně potřebujeme nějaká hodnocení, abychom modelu řekli, jestli je dobrý detektor nesmyslů, než se pustíme do vracení nesmyslů a utratíme spoustu peněz 2) je potřeba být povědomá o podlézavosti a obecně být vstřícný není vždy nejlepší věc 3) Myslím, že by bylo užitečné použít kombinaci LLM a lidí k posouzení