Одно из моих выводов на сегодня заключается в том, что медлительность на этапе USER для вызовов Tensor.uniform() в @__tinygrad__ связана с количеством связанных методов (и каждый вызов также добавляет некоторую накладную нагрузку по профилированию/метаданным через __wrapper__).