Warum neuronale Netze am Rand des Chaos lernen Wenn Sie ein neuronales Netz trainieren, sind die Parameteraktualisierungen normalerweise nicht normalverteilt. Sie sind schwerfällig – seltene große Sprünge durchziehen viele kleine Anpassungen. Dieses Muster tritt bei MLPs, CNNs und Transformern auf, über MNIST und CIFAR-10 hinweg, während des frühen schnellen Lernens und der späten Konvergenz. Es ist verdächtig universell. Xin-Ya Zhang und Chao Tang argumentieren, dass dies kein Eigenart des stochastischen Gradientenabstiegs oder des Rauschens von Mini-Batches ist. Es ist ein Zeichen für selbstorganisierte Kritikalität, die aus einem grundlegenden Trade-off entsteht: Das Maximum-Entropie-Prinzip drängt das Netzwerk dazu, frei zu erkunden, während eine gegenseitige Informationsbeschränkung die Aktualisierungen zwingt, aufgabenrelevant zu bleiben. Wenn Sie diese beiden Kräfte ins Gleichgewicht bringen, erhalten Sie Potenzgesetzstatistiken – dasselbe Skalierungsverhalten, das bei Erdbeben, neuronalen Lawinen und Finanzmärkten zu beobachten ist. Die Beweise sind überzeugend. Der Potenzgesetzexponent bleibt während des gesamten Trainings bemerkenswert stabil, selbst wenn der Verlust um Größenordnungen sinkt. Die Verlustlandschaft selbst zeigt eine Multiskalenstruktur: exponentielle Glattheit unter kleinen Störungen (lokal flache Becken), die bei größeren Skalen in potenzgesetzliche Rauheit übergeht. Sogar das Timing großer Aktualisierungen folgt schwerfälligen Statistiken – große Lernereignisse gruppieren sich eher zusammen, als zufällig aufzutreten, mit Exponenten um 2,5–2,7. Was dieses Konzept theoretisch befriedigend macht, ist die theoretische Ableitung aus ersten Prinzipien. Ausgehend von der Entropiemaximierung unter einer Informationsbeschränkung und unter Verwendung einer Pfadintegralformulierung der KL-Divergenz durch den Parameterraum, stellen die Autoren genau das beobachtete Skalierungsverhalten wieder her. Keine Feinabstimmung, keine ad-hoc Annahmen. Die Implikationen sind tiefgreifend: Das Lernen neuronaler Netze ist nicht nur Optimierung – es ist ein nichtgleichgewichtiger physikalischer Prozess, der von denselben statistischen Prinzipien gesteuert wird, die komplexe Systeme in der Natur formen. Dieses Verständnis könnte die Gestaltung effizienterer Lernalgorithmen leiten und erklären, warum SGD besser generalisiert als adaptive Methoden, die große explorative Aktualisierungen unterdrücken.