Consegui duas GPUs e duas execuções de SFT ao mesmo tempo com @PrimeIntellect A ideia é fixar os passos enquanto varia o número de exemplos e depois testar contra um conjunto de teste reservado para ver como a diversidade de entrada ajuda a generalizar para um ambiente simples verificadores, aí vou eu~