Moltghost Dev Update Wir haben Kimi K2 als lokale Modelloption untersucht. Es handelt sich um ein 1T-Parameter MoE-Modell — selbst quantisiert benötigt es über 500 GB Speicherplatz und über 200 GB VRAM. Unsere einzelnen GPU-Pods erreichen maximal 45 GB, daher ist es auf der aktuellen Hardware nicht machbar. Im Moment verwenden wir Modelle, die auf einzelnen GPUs passen, wie Phi4-Mini und Qwen3 8B, wobei als nächstes Denkmodelle wie DeepSeek-R1 kommen. Die Unterstützung für Multi-GPU-Cluster steht auf der Roadmap. Auf der Bereitstellungsseite ist die Bootstrap-Zeit von 75s auf 19s gesunken. Wir haben OpenClaw und LLM-Gewichte in das Docker-Image eingebaut, den git pull und den Rebuild-Zyklus entfernt und den Startvorgang parallelisiert. Getestet auf 3 GPU-Typen: L4 → 18s Bootstrap, ~2:47 insgesamt A5000 → 19s Bootstrap, ~6:18 insgesamt A40 → 18s Bootstrap, ~5:08 insgesamt Klicken Sie auf den Live-Agenten in weniger als 3 Minuten auf L4. Der verbleibende Engpass ist die Container-Initialisierung — RunPod zieht und extrahiert unser 1,3 GB Docker-Image auf den GPU-Knoten, bevor unser Code überhaupt ausgeführt wird. Dies dauert je nach Knoten, auf dem Sie landen, und ob das Image bereits im Cache ist, 2 bis 5 Minuten. Der nächste Schritt besteht darin, RunPod-Vorlagen zu registrieren, um Images über die Knoten hinweg vorab zu cachen, mit dem Ziel, die gesamte Bereitstellung auf unter 1 Minute zu reduzieren. All dies läuft noch auf der lokalen Entwicklung. Die Auswahl mehrerer Modelle ist in der Produktion noch nicht aktiv — wir müssen das Qwen3 8B-Image noch neu erstellen, um mit dem aktualisierten System übereinzustimmen, bevor wir es öffentlich machen.