Tenho duas GPUs e duas rodadas SFT ao mesmo tempo com @PrimeIntellect A ideia é corrigir etapas variando o número de exemplos e depois testar contra um conjunto de testes suspenso para ver como a diversidade de entrada ajuda a generalizar para um ambiente simples Verificadores, lá vou eu~