tomando una biblioteca DeepSeek a la vez, haciéndolas un 20%-30% más rápidas, optimizándolas para B200s y CuTeDSL