Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Eu tive o mesmo pensamento, então estive a brincar com isso no nanochat. Por exemplo, aqui estão 8 agentes (4 claude, 4 codex), com 1 GPU cada, a correr experiências no nanochat (tentando eliminar o logit softcap sem regressão). O resumo é que não funciona e é uma confusão... mas ainda é muito bonito de se ver :)
Tentei algumas configurações: 8 investigadores independentes, 1 cientista-chefe a dar trabalho a 8 investigadores juniores, etc. Cada programa de pesquisa é um branch do git, cada cientista faz um fork para um branch de funcionalidade, git worktrees para isolamento, arquivos simples para comunicações, evitando Docker/VMs por simplicidade por agora (acho que as instruções são suficientes para evitar interferências). A organização de pesquisa funciona em grelhas de janelas tmux de sessões interativas (como o Teams) para que seja bonito de se ver, ver o trabalho individual deles e "assumir o controle" se necessário, ou seja, sem -p.
Mas ok, a razão pela qual não funciona até agora é que as ideias dos agentes são apenas bastante ruins desde o início, mesmo na maior inteligência. Eles não pensam cuidadosamente sobre o design do experimento, executam algumas variações um pouco sem sentido, não criam bases fortes e não ablatam as coisas corretamente, não controlam cuidadosamente o tempo de execução ou flops. (apenas como exemplo, um agente ontem "descobriu" que aumentar o tamanho oculto da rede melhora a perda de validação, o que é um resultado totalmente espúrio dado que uma rede maior terá uma perda de validação mais baixa no regime de dados infinitos, mas depois também treina por muito mais tempo, não está claro porque tive que intervir para apontar isso). Eles são muito bons em implementar qualquer ideia bem definida e descrita, mas não geram criativamente.
Mas o objetivo é que agora você está a programar uma organização (por exemplo, uma "organização de pesquisa") e os seus agentes individuais, então o "código fonte" é a coleção de prompts, habilidades, ferramentas, etc. e processos que a compõem. Por exemplo, uma reunião diária de pé pela manhã agora faz parte do "código da org". E otimizar o pré-treinamento do nanochat é apenas uma das muitas tarefas (quase como uma avaliação). Então - dado uma tarefa arbitrária, quão rapidamente a sua organização de pesquisa gera progresso nela?
Top
Classificação
Favoritos
