брати по одній бібліотеці DeepSeek за раз, роблячи їх на 20%-30% швидшими, оптимізуючи для B200 і CuTeDSL