Ottamalla yhden DeepSeek-libin kerrallaan, tehden niistä 20–30 % nopeampia, optimoiden ne B200:lle ja CuTeDSL:lle