andrej karpathy deixou o seu laptop ligado durante dois dias.. voltou e o seu agente tinha executado ~700 experimentos e encontrado ~20 melhorias que ele tinha perdido estava direcionado para o nanochat, um pequeno modelo estilo gpt que ele já tinha ajustado manualmente.. karpathy diz que o agente reduziu o "tempo para gpt 2" em ~11%, e os ganhos foram transferidos do modelo pequeno para os maiores o mecanismo é na verdade bastante aborrecido: execuções de treino fixas de 5 minutos, pontuação contra uma métrica, manter o que melhora, reverter o que não melhora, repetir.. ~12 experimentos/hora significa que você acorda com ~100 tentativas que não executou pessoalmente Tobi Lütke tentou a mesma ideia na base de código liquid da shopify e relatou ~53% mais rápido com 61% menos alocações de objetos (com a ressalva de que pode estar sobreajustado).. mas as ideias ainda eram úteis - mesmo em um projeto de 20 anos, fortemente otimizado nós apenas automatizamos a parte mais lenta da engenharia e pesquisa.. iteração implacável tu escreves o arquivo .md.. o agente escreve o .py 👀