我今天的一個結論是,@__tinygrad__ 中 Tensor.uniform() 調用的 USER 階段的緩慢來自於涉及的鏈式方法數量(每次調用還會通過 __wrapper__ 添加一些性能分析/元數據的開銷)。