Atualização do Dev do Moltghost Analisámos o Kimi K2 como uma opção de modelo local. É um modelo MoE com 1T de parâmetros — mesmo quantizado, precisa de mais de 500GB de disco e mais de 200GB de VRAM. Os nossos pods de GPU únicos atingem um máximo de 45GB, portanto, não é viável com o hardware atual. Por enquanto, estamos a executar modelos que cabem em GPUs únicas, como Phi4-Mini e Qwen3 8B, com modelos de raciocínio como o DeepSeek-R1 a seguir. O suporte a clusters de múltiplas GPUs está no nosso roteiro. Do lado da implementação, o bootstrap passou de 75s para 19s. Incorporámos os pesos do OpenClaw e LLM na imagem Docker, removemos o loop de git pull e rebuild, e paralelizamos o arranque. Testado em 3 tipos de GPU: L4 → 18s de bootstrap, ~2:47 total A5000 → 19s de bootstrap, ~6:18 total A40 → 18s de bootstrap, ~5:08 total Clique para agente ao vivo em menos de 3 minutos no L4. O gargalo restante é a inicialização do container — o RunPod a puxar e extrair a nossa imagem Docker de 1.3GB para o nó da GPU antes que o nosso código seja executado. Isso leva de 2 a 5 minutos, dependendo de qual nó você cai e se já tem a imagem em cache. O próximo passo é registar templates do RunPod para pré-cache de imagens entre nós, com o objetivo de reduzir o tempo total de implementação para menos de 1 minuto. Tudo isso ainda está a correr no desenvolvimento local. A seleção de múltiplos modelos ainda não está ativa em produção — ainda precisamos de reconstruir a imagem do Qwen3 8B para corresponder ao sistema atualizado antes de a tornarmos pública.