Una de mis conclusiones de hoy es que la lentitud en la etapa USER para las llamadas a Tensor.uniform() en @__tinygrad__ proviene de la cantidad de métodos encadenados involucrados (y cada llamada también añade algo de sobrecarga de perfilado/metadatos a través de __wrapper__).