Один із моїх сьогоднішніх висновків полягає в тому, що повільність етапу USER для викликів Tensor.uniform() у @__tinygrad__ пов'язана з кількістю ланцюжкових методів (а також кожен дзвінок додає певний накладний витрати на профілювання/метадані через __wrapper__).