まだ全文を読んでおらず、まだ公開されていないので詳細はわかりませんが、LLMが審査員としてより厳密な方法論的厳密さを適用しているのを見るのは嬉しいことです。LLM評価は多くのベンチマークの中心であり、明確な統計的検証なしに使われることも多いです。