o nanochat agora treina o modelo de capacidade GPT-2 em apenas 2 horas em um único nó 8XH100 (reduzido de ~3 horas há 1 mês). Estamos chegando muito mais perto do ~interativo! Um monte de ajustes e recursos (fp8) foram implementados, mas a maior diferença foi a troca do conjunto de dados de FineWeb-edu para NVIDIA ClimbMix (bom trabalho NVIDIA!). Eu havia tentado Olmo, FineWeb, DCLM, que todos levaram a regressões, mas o ClimbMix funcionou muito bem desde o início (a ponto de eu estar ligeiramente suspeitando de goodharting, embora lendo o artigo pareça ~ok). Em outras notícias, depois de tentar algumas abordagens sobre como configurar as coisas, agora tenho Agentes de IA iterando no nanochat automaticamente, então vou apenas deixar isso rodando por um tempo, relaxar um pouco e aproveitar a sensação de pós-agi :). Visualizado aqui como um exemplo: 110 mudanças feitas nas últimas ~12 horas, reduzindo a perda de validação até agora de 0.862415 para 0.858039 para um modelo d12, sem custo para o tempo de relógio. O agente trabalha em um branch de recurso, experimenta ideias, as mescla quando funcionam e itera. Engraçado, nas últimas ~2 semanas, quase sinto que iterei mais sobre a "meta-configuração" onde otimizo e ajusto ainda mais os fluxos do agente do que no repositório do nanochat diretamente.