prendre une bibliothèque DeepSeek à la fois, les rendant 20%-30% plus rapides, les optimisant pour les B200 et CuTeDSL