Aggiornamento dello sviluppo di Moltghost Abbiamo esaminato Kimi K2 come opzione di modello locale. È un modello MoE con 1T di parametri — anche quantizzato, ha bisogno di oltre 500GB di spazio su disco e oltre 200GB di VRAM. I nostri pod GPU singoli raggiungono un massimo di 45GB, quindi non è fattibile con l'hardware attuale. Per ora, utilizziamo modelli che si adattano a singole GPU come Phi4-Mini e Qwen3 8B, con modelli di ragionamento come DeepSeek-R1 in arrivo. Il supporto per cluster multi-GPU è nella roadmap. Dal lato del deploy, il bootstrap è passato da 75s a 19s. Abbiamo integrato i pesi di OpenClaw e LLM nell'immagine Docker, rimosso il ciclo di git pull e rebuild, e parallelizzato l'avvio. Testato su 3 tipi di GPU: L4 → 18s bootstrap, ~2:47 totale A5000 → 19s bootstrap, ~6:18 totale A40 → 18s bootstrap, ~5:08 totale Clicca per l'agente live in meno di 3 minuti su L4. Il collo di bottiglia rimanente è l'inizializzazione del container — RunPod che scarica ed estrae la nostra immagine Docker da 1.3GB sul nodo GPU prima che il nostro codice venga eseguito. Questo richiede da 2 a 5 minuti a seconda del nodo su cui atterri e se ha già l'immagine nella cache. Il prossimo passo è registrare i template di RunPod per pre-cache delle immagini tra i nodi, puntando a ridurre il deploy totale a meno di 1 minuto. Tutto questo è ancora in esecuzione sullo sviluppo locale. La selezione multi-modello non è ancora attiva in produzione — dobbiamo ancora ricostruire l'immagine di Qwen3 8B per adattarla al sistema aggiornato prima di renderla pubblica.