1/ Cruncher Spotlight #8 — ADIA-laboratorion rakenteellinen murtohaaste Tapaa Abhishek Gupta (Data Scientist @ TraceLink), joka sijoittui 8. sijalle 100 000 dollarin Structural Break Challenge -kilpailussa Crunchissa. Tässä on hänen lähestymistapansa intuitio — ei vaadita raskaita matematiikkaa. 👇
2/ Ensinnäkin: mikä on "rakenteellinen murtuma"? Se on silloin, kun aikasarja hiljaisesti muuttaa käyttäytymistään — kuten markkinoiden vaihtelu, anturin liukuminen tai terveyssignaalin kääntyminen. Sama kaavio, eri säännöt alla.
3/ Jos myöhästyt tauosta: Ennusteet muuttuvat hauraiksi Mallit muuttuvat epävakaiksi päätökset tehdään eilisen todellisuuden pohjalta Murtuman tunnistus näkyy kaikkialla: rahoitus, ilmasto, terveydenhuolto, teollisuusoperaatiot.
4/ Haasteen kehys oli yksinkertainen: Sinulle annetaan aikasarja ja merkitty rajapiste. Kysymys: näyttääkö data ennen ja jälkeen tuon pisteen tulevan samasta prosessista... vai ei?
5/ Abhissekin keskeinen siirto: älä pakota yhtä mallia selittämään jokaista sarjatyyppiä. Aineistossa oli erilaisia "persoonallisuuksia" (sileä, meluisa, räjähtävä, raskashäntäinen, autokorreloitunut). Siksi hän ryhmitteli aikasarjat klustereiksi (tyyppeihin) ja käytti sitten räätälöityä ilmaisinta jokaiselle.
6/ Monille klustereille paras "malli" oli vain yksi vahva pistemäärä: Ajattele: "Kuinka paljon paremmin sarja sopii kahtena segmenttinä verrattuna yhtenä jatkuvaan segmenttiin?" Se on pohjimmiltaan todennäköisyyssuhde-tyylinen vertailu, puhdas ja vaikea pelata.
7/ Muiden klustereiden kohdalla hän käytti kevyttä koneoppimista (logistinen regressio / puukokonaisuudet / gradientin korostus) ominaisuuksissa, jotka kuvaavat sarjan muutoksia: - keskiarvon/mittakaavan muutokset - hypyt ja räjähdys - hännän käyttäytyminen - jakaumaerot lähellä rajaa
8/ Sisään kalibrointi. Kun ajat eri detektoreita eri klustereille, niiden pisteet voivat olla eri asteikoilla. Siksi hän lisäsi kalibrointikerroksen, joka suuntasi ne maailmanlaajuisesti, parantaen näin kokonaisranking-suorituskykyä (AUC).
9/ Metaoppitunti on hyvin Crunch: Vankka suorituskyky perustuu usein selkeisiin vertailuihin + monipuolisiin ominaisuuksiin + vakaisiin malleihin, ei raskaaseen arkkitehtuuriin. Lisäksi: hän teki tämän ilman hyperparametrien viritystä.
570