pegando uma lib de DeepSeek por vez, tornando-os 20%-30% mais rápidos, otimizando-os para B200s e CuTeDSL