我今天的一个结论是,@__tinygrad__ 中 Tensor.uniform() 调用的 USER 阶段的缓慢来自于涉及的链式方法的数量(每次调用还通过 __wrapper__ 添加了一些性能分析/元数据开销)。