Ny #NeurIPS2025 artikkel: hvordan bør vi evaluere maskinlæringsmodeller uten et stort, merket datasett? Vi introduserer Semi-Supervised Model Evaluation (SSME), som bruker merkede og umerkede data for å estimere ytelse! Vi finner at SSME er langt mer nøyaktig enn standardmetoder.