Neues Papier! Was wäre, wenn Sie garantieren könnten (unter Verwendung einer Mischung aus formaler Verifikation und PDE-Theorie), dass ein neuronales Netzwerk Ihnen *immer* die richtige Antwort gibt, selbst wenn es Inferenz weit entfernt von den Trainingsdaten macht? Einführung von BEACONS. arXiv-Link unten. (1/15)
In den 90er Jahren wurde von Mhaskar, Pinkus und anderen hervorragende Arbeit an *quantitativen* Versionen der gefeierten Universellen Approximationssätze für neuronale Netze geleistet: Wie genau kann ein flaches neuronales Netz mit N versteckten Neuronen eine d-dimensionale Funktion approximieren? (3/15)
Aber diese Worst-Case-Fehlergrenzen hängen entscheidend von der Glattheit der approximierten Funktion ab (d.h. der Worst-Case-Fehler skaliert wie N^(-n/d), wobei n die Anzahl der kontinuierlichen Ableitungen ist, die die Funktion hat). Das stellt ein großes Problem für die Extrapolation dar. (4/15)
Wie können wir jemals etwas über die Glattheit einer Funktion wissen, außerhalb des Teilbereichs, auf dem wir trainiert haben? Dies ist der wesentliche Grund, warum man Fehler bei den neuronalen Netzwerkannäherungen an Funktionen, die weit vom konvexen Hüllkörper der Trainingsdaten entfernt sind, nicht begrenzen kann. (5/15)
Aber mit BEACONS - Bounded-Error, Algebraically-COmposable Neural Solvers - nutzen wir die Tatsache aus, dass die Funktion, die wir lernen, nicht willkürlich ist, sondern die Lösung einer PDE (oder eines Systems von PDEs) darstellt. Daher können wir Techniken wie die Methode der Charakteristiken anwenden... (6/15)
...oder elliptische Regularitätstheoreme, um *a priori* vorherzusagen, wie viele stetige Ableitungen überall im Raum oder in der Zeit existieren müssen, selbst arbiträr weit vom Trainingsbereich entfernt, indem die analytische Struktur der PDEs selbst ausgenutzt wird. Daher der "Begrenzte-Fehler"-Teil. (7/15)
Aber solche strengen Grenzen sind nur für flache neuronale Netze (mit einer einzigen versteckten Schicht) beweisbar. Was ist, wenn wir eine tiefere, ausdrucksstärkere Architektur konstruieren wollen? Genau hier kommt der Teil "Algebraisch zusammensetzbar" ins Spiel. Mit Ideen aus der angewandten Kategorientheorie... (8/15)
...wir zeigen, wie es möglich ist, tiefere BEACONS-Architekturen als Zusammensetzungen von flacheren zu konstruieren, sodass die Fehlergrenzen eng kontrolliert bleiben. Insbesondere "faktorisieren" wir unsere komplizierte PDE-Lösung in eine Zusammensetzung einfacher Funktionen... (9/15)
...so dass die großen Grenzen der Fehler für diskontinuierliche Teile der Lösung willkürlich durch kleine Grenzen der Fehler für glatte, langsam variierende Teile der Lösung unterdrückt werden, was die Theorie der nichtlinearen Flussbegrenzer effektiv verallgemeinert. (10/15)
Geben Sie einfach die Gleichungen an, die Sie lösen möchten, sowie die Hyperparameter des neuronalen Netzwerks, mit denen Sie sie lösen möchten, und unser Framework generiert automatisch hochoptimierten C-Code zum Trainieren und Validieren einer BEACONS-Architektur für diese Gleichungen und zum Ableiten neuer Lösungen. (12/15)
Gleichzeitig erzeugt es formale Beweise für die Korrektheit des zugrunde liegenden klassischen Lösers sowie für den bootstrapped, neuralen netzwerkbasierten Lösers, mit strengen extrapolatorischen Grenzen für die schlimmsten L^infinity-Fehler sowohl für glatte als auch für nicht glatte Lösungen. (13/15)
Diese Beweise werden als symbolischer Racket-Code dargestellt und sind daher vollständig ausführbar (und somit maschinenprüfbar). Für eine Vielzahl von sowohl linearen als auch nicht-linearen Gleichungssystemen stellen wir fest, dass BEACONS-Architekturen traditionelle neuronale Netzwerke dramatisch übertreffen. (14/15)
Das Ziel ist es, das allgemeine Niveau der mathematischen Strenge, die der wissenschaftlichen ML zugrunde liegt, zu erhöhen, sodass auf neuronalen Netzwerk-basierten Methoden ein gleichwertiger Stand mit klassischen numerischen Methoden erreicht wird und Eigenschaften wie Erhaltung, Konvergenz, Stabilität und Korrektheit garantiert werden. (15/15)
926