Makalah #NeurIPS2025 baru: bagaimana kita harus mengevaluasi model pembelajaran mesin tanpa kumpulan data berlabel yang besar? Kami memperkenalkan Semi-Supervised Model Evaluation (SSME), yang menggunakan data berlabel dan tidak berlabel untuk memperkirakan kinerja! Kami menemukan SSME jauh lebih akurat daripada metode standar.