Vor 10 Jahren, im Mai 2015, veröffentlichten wir die ersten funktionierenden sehr tiefengradientenbasierten Feedforward-Neuronalen Netze (FNNs) mit Hunderten von Schichten (frühere FNNs hatten maximal ein paar Dutzend Schichten). Um das Problem des verschwindenden Gradienten zu überwinden, nutzten unsere Highway Networks die Restverbindungen, die erstmals 1991 von @HochreiterSepp eingeführt wurden, um einen konstanten Fehlerfluss in rekurrenten NNs (RNNs) zu erreichen, die durch multiplikative Gatter begrenzt sind, ähnlich den vergessenen Gattern (Gers et al., 1999) unseres sehr tiefen LSTM RNN. Highway NNs wurden durch die Arbeit meiner ehemaligen Doktoranden @rupspace und Klaus Greff ermöglicht. Wenn wir die Highway NN-Gates auf 1.0 setzen, erhalten wir effektiv das ResNet, das 7 Monate später veröffentlicht wird. Beim Deep Learning dreht sich alles um die NN-Tiefe. LSTMs brachten im Wesentlichen unbegrenzte Tiefe in wiederkehrende NNs; Highway Nets brachte es zu Feedforward-NNs.