Fluid LM-Benchmarking von @vjhofmann und @allen_ai #COLM2025 Ich habe dieses Papier bereits beworben, es ist großartig. Mit der Schwierigkeit auf Artikel-Ebene (IRT-Modell) kann man die *latente Fähigkeit* eines Modells schätzen, anstatt nur die Rohleistung, indem man ihm Proben gibt, die den Informationsgewinn maximieren.