I ricercatori ML hanno appena costruito una nuova tecnica di ensemble. Supera XGBoost, CatBoost e LightGBM. Per anni, il gradient boosting è stato il punto di riferimento per l'apprendimento tabellare. Non più. TabM è un ensemble a parametri efficienti che ti offre: - La velocità di un MLP - L'accuratezza di GBDT Ecco come funziona: Nell'ML tabellare, abbiamo sempre dovuto scegliere tra velocità e accuratezza. Gli MLP sono veloci ma sotto-performanti. Gli ensemble profondi sono accurati ma gonfiati. I trasformatori sono potenti ma impraticabili per la maggior parte delle tabelle. TabM risolve questo con un semplice insight: (riferisciti all'immagine qui sotto mentre leggi) Invece di addestrare 32 MLP separati, utilizza un modello condiviso con un adattatore leggero. Questa piccola modifica ti offre i vantaggi dell'ensamble senza il costo di addestrare più reti. I risultati: Contro oltre 15 modelli e 46 dataset, TabM si è classificato in media 1.7—davanti a XGBoost, CatBoost e LightGBM. Modelli complessi come FT Transformer e SAINT si sono classificati molto più in basso nonostante siano più costosi da addestrare. Ho condiviso il documento di ricerca e i benchmark nel tweet successivo.
Articolo di ricerca →
13,6K