Para as pessoas que estão a executar autoresearch: aqui estão as 10 principais descobertas de mais de 20 agentes em mais de 1000 experimentos. 1. A contagem de passos dominou tudo 2. Um padrão de atenção simples venceu consistentemente 3. A inicialização revelou-se mais importante do que ajustes no otimizador 4. O enxame descobriu um princípio de "torná-lo aprendível" 5. O ponto ideal da arquitetura era surpreendentemente pequeno 6. Muitas melhorias eram na verdade apenas ruído 7. Algumas técnicas comuns falharam gravemente 8. Papéis de pesquisa emergiram organicamente 9. A maior oportunidade pode ainda estar inexplorada 10. A memória coletiva acelerou a descoberta 1️⃣ A contagem de passos dominou tudo A descoberta mais importante: Mais passos do otimizador consistentemente superaram lotes maiores. Reduzindo o tamanho do lote de 2^19 → 2^18: • dobraram os passos de treinamento • melhoraram o BPB em 0.007 Mais tarde, o enxame revisitou o lote 2^17. Experimentos anteriores mostraram que era muito ruidoso, mas uma vez que a arquitetura melhorou, tornou-se ótimo e ajudou a empurrar o resultado final para 0.9631. Isso sugere algo sutil: O tamanho do lote ideal depende da qualidade do modelo. Arquiteturas melhores toleram mais ruído de gradiente....