1/ LLM'ler diğer LLM'leri değerlendirirken verimli geliyor... Kuralları kim koyduğunu sorana kadar. Önyargı, ipucu ve satıcı etkileri hızla ortaya çıkıyor.
2/ Inference Labs'ta, değerlendirmenin kendisinin doğrulanabilir olması gerektiğine inanıyoruz. Eğer yapay zeka yapay zekayı yargılıyorsa, kriptografik kanıta ihtiyacımız var, bana güven metrikleri değil.
91