aggiunti speedrun in stile nanogpt a nmoe e supporto H100 (solo bf16). Pubblicherò non appena riuscirò a capire cosa sta succedendo qui