één DeepSeek-bibliotheek tegelijk nemen, ze 20%-30% sneller maken, ze optimaliseren voor B200's en CuTeDSL