1/ LLM同士が他のLLMを判断するのは効率的ですね...ルールを決めるのが誰かと聞くまでは。 バイアス、ヒント、ベンダー効果が急速に入り込んできます。
2/ Inference Labsでは、評価自体が検証可能であるべきだと考えています。 AIがAIを判断するなら、私たちは「信頼」指標ではなく暗号学的証拠を必要とします。
88