Sei in un colloquio per un ingegnere ML presso Stripe. L'intervistatore chiede: "Le persone spesso contestano transazioni che hanno effettivamente effettuato. Come costruiresti un modello che prevede queste contestazioni false senza dati etichettati?" Tu: "Segnerò le carte con alti tassi di contestazione." Colloquio finito. Ecco cosa hai perso: C'è una tecnica chiamata apprendimento attivo che ti consente di costruire modelli supervisionati senza dati etichettati. È più economica e veloce rispetto all'annotazione manuale. L'idea è semplice: ottenere feedback umano su esempi in cui il modello ha più difficoltà. Ecco come funziona: ↳ Inizia in piccolo: Etichetta manualmente l'1-2% dei tuoi dati. Costruisci il tuo primo modello su questo piccolo dataset. Non sarà buono, ma questo è il punto. ↳ Genera previsioni: Esegui il modello su dati non etichettati e cattura i punteggi di confidenza. I modelli probabilistici funzionano bene qui: guarda il divario tra le prime due classi previste. ↳ Etichetta strategicamente: Ordina le previsioni per confidenza. Fai etichettare agli esseri umani solo gli esempi con la confidenza più bassa. Non ha senso etichettare ciò che il modello già conosce. ↳ Ripeti e migliora: Rimetti i dati etichettati nel modello. Allena di nuovo. Il modello diventa più intelligente su ciò che non sa. Fermati quando le prestazioni soddisfano i tuoi requisiti. ...