Une de mes conclusions d'aujourd'hui est que la lenteur dans la phase USER pour les appels à Tensor.uniform() dans @__tinygrad__ provient du nombre de méthodes chaînées impliquées (et chaque appel ajoutant également un certain surcoût de profilage/métadonnées via __wrapper__).