Du er i et ML Engineer-intervju hos Stripe. Intervjueren spør: "Folk bestrider ofte transaksjoner de faktisk har gjort. Hvordan ville du laget en modell som forutsier disse falske tvistene uten noen merkede data?" Du: «Jeg vil flagge kort med høy klagerate.» Intervjuet er over. Her er det du gikk glipp av: Det finnes en teknikk som heter Active learning som lar deg bygge supervised modeller uten merkede data. Det er billigere og raskere enn manuell annotasjon. Ideen er enkel: få menneskelig tilbakemelding på eksempler der modellen sliter mest. Slik fungerer det: ↳ Start i det små: Merk manuelt 1-2 % av dataene dine. Bygg din første modell på dette lille datasettet. Det blir ikke bra, men det er poenget. ↳ Generer prediksjoner: Kjør modellen på umerkede data og fang konfidensscorer. Sannsynlighetsmodeller fungerer godt her—se på gapet mellom de to beste predikerte klassene. ↳ Merk strategisk: Ranger spådommer etter tillit. La mennesker bare merke eksemplene med lavest konfidens. Det er ingen vits i å merke det modellen allerede vet. ↳ Gjenta og forbedre: Gi merkede data tilbake til modellen. Tren igjen. Modellen blir smartere på hva den ikke vet. Stopp når ytelsen oppfyller kravene dine. ...