Nuovo documento! E se potessi garantire (utilizzando un mix di verifica formale e teoria delle PDE) che una rete neurale ti darebbe *sempre* la risposta corretta, anche quando fa inferenze arbitrariamente lontane dai dati di addestramento? Presentiamo BEACONS. Link arXiv qui sotto. (1/15)
Negli anni '90, un ottimo lavoro è stato svolto da Mhaskar, Pinkus e altri su versioni *quantitative* dei celebri Teoremi di Approssimazione Universale per le reti neurali: quanto accuratamente può una rete neurale superficiale con N neuroni nascosti approssimare una funzione d-dimensionale? (3/15)
Ma questi limiti di errore nel caso peggiore dipendono in modo cruciale dalla regolarità della funzione che si sta approssimando (cioè, l'errore nel caso peggiore scala come N^(-n/d), dove n è il numero di derivate continue che ha la funzione). Questo presenta un problema importante per l'estrapolazione. (4/15)
Come possiamo mai sapere qualcosa sulla regolarità di una funzione, al di fuori del sottodominio su cui ci siamo addestrati? Questa è la ragione essenziale per cui non si possono limitare gli errori nelle approssimazioni delle funzioni da parte delle reti neurali lontane dal guscio convesso dei dati di addestramento. (5/15)
Ma con i BEACONS - Bounded-Error, Algebraically-COmposable Neural Solvers - sfruttiamo il fatto che la funzione che stiamo apprendendo non è arbitraria, ma è piuttosto la soluzione a un PDE (o a un sistema di PDE). Quindi possiamo applicare tecniche come il metodo delle caratteristiche... (6/15)
...o teoremi di regolarità ellittica per prevedere *a priori* quanti derivati continui devono esistere, ovunque nello spazio o nel tempo, anche arbitrariamente lontano dal dominio di addestramento, sfruttando la struttura analitica delle PDE stesse. Quindi, la parte "Bounded-Error". (7/15)
Ma tali limiti rigorosi sono provabili solo per reti neurali superficiali (con un singolo strato nascosto). E se volessimo costruire un'architettura più profonda e più espressiva? È qui che entra in gioco la parte "Algebraicamente Componibile". Utilizzando idee dalla teoria delle categorie applicata... (8/15)
...mostriamo come sia possibile costruire architetture BEACONS più profonde come composizioni di architetture più superficiali, in modo tale che i limiti di errore rimangano strettamente controllati. In particolare, "fattorizziamo" la nostra complicata soluzione PDE in una composizione di funzioni più semplici... (9/15)
...in modo tale che i grandi limiti sugli errori per le parti discontinue della soluzione siano arbitrariamente soppressi da piccoli limiti sugli errori per le parti della soluzione lisce e a variazione lenta, generalizzando efficacemente la teoria dei limitatori di flusso non lineari. (10/15)
Basta specificare le equazioni che desideri risolvere, insieme ai parametri iper della rete neurale per risolverle, e il nostro framework genera automaticamente codice C altamente ottimizzato per l'addestramento e la validazione di un'architettura BEACONS per quelle equazioni e per inferire nuove soluzioni. (12/15)
Allo stesso tempo, genera prove formali di correttezza per il risolutore classico sottostante, così come per il risolutore basato su rete neurale potenziata, con rigorosi limiti di estrapolazione sugli errori L^infinity nel caso peggiore per soluzioni sia lisce che non lisce. (13/15)
Queste prove sono rappresentate come codice simbolico Racket e quindi sono completamente eseguibili (e quindi verificabili dalla macchina). Per una varietà di sistemi di equazioni sia lineari che non lineari, scopriamo che le architetture BEACONS superano drasticamente le reti neurali tradizionali. (14/15)
L'obiettivo è elevare il livello complessivo di rigore matematico alla base del ML scientifico, ponendo i metodi basati su reti neurali sullo stesso piano dei metodi numerici classici e garantendo proprietà come conservazione, convergenza, stabilità e correttezza. (15/15)
928