Nghiên cứu mới về khi nào các phương pháp gradient quang phổ (ví dụ: Muon) giúp ích trong học sâu: 1. Chúng tôi xác định một dạng phổ biến của sự không ổn định trong DL: các ma trận sau kích hoạt có hạng thấp và không ổn định. 2. Sau đó, chúng tôi giải thích tại sao các phương pháp quang phổ có thể hoạt động tốt bất chấp điều này. Chuỗi dài