Một trong những kết luận của tôi từ hôm nay là sự chậm chạp trong giai đoạn USER cho các cuộc gọi Tensor.uniform() trong @__tinygrad__ đến từ số lượng các phương thức nối tiếp liên quan (và mỗi cuộc gọi cũng thêm một số chi phí/profiling metadata thông qua __wrapper__).