tomando una lib de DeepSeek a la vez, haciéndolos un 20%-30% más rápidos, optimizándolos para B200 y CuTeDSL