Aktualizacja dewelopera Moltghost Zbadano Kimi K2 jako lokalną opcję modelu. To model MoE o 1T parametrach — nawet w wersji skwantyzowanej potrzebuje ponad 500GB miejsca na dysku i ponad 200GB VRAM. Nasze pojedyncze podzespoły GPU osiągają maksymalnie 45GB, więc nie jest to wykonalne na obecnym sprzęcie. Na razie uruchamiamy modele, które mieszczą się na pojedynczych GPU, takie jak Phi4-Mini i Qwen3 8B, a modele rozumowania, takie jak DeepSeek-R1, będą następne. Wsparcie dla klastrów wielo-GPU jest na liście planów. Po stronie wdrożenia, czas uruchamiania spadł z 75s do 19s. Wbudowaliśmy wagi OpenClaw i LLM do obrazu Dockera, usunęliśmy pętlę git pull i rebuild oraz zrównolegliliśmy uruchamianie. Testowano na 3 typach GPU: L4 → 18s uruchamianie, ~2:47 łącznie A5000 → 19s uruchamianie, ~6:18 łącznie A40 → 18s uruchamianie, ~5:08 łącznie Kliknij, aby uzyskać dostęp do agenta na żywo w mniej niż 3 minuty na L4. Pozostałym wąskim gardłem jest inicjalizacja kontenera — RunPod pobiera i rozpakowuje nasz obraz Dockera o wielkości 1.3GB na węźle GPU, zanim nasz kod w ogóle się uruchomi. To zajmuje od 2 do 5 minut, w zależności od tego, na którym węźle się znajdziesz i czy obraz jest już w pamięci podręcznej. Następnym krokiem jest rejestracja szablonów RunPod, aby wstępnie zbuforować obrazy na różnych węzłach, dążąc do skrócenia całkowitego wdrożenia do mniej niż 1 minuty. Wszystko to nadal działa na lokalnym środowisku deweloperskim. Wybór wielu modeli nie jest jeszcze dostępny w produkcji — nadal musimy przebudować obraz Qwen3 8B, aby dopasować go do zaktualizowanego systemu przed udostępnieniem go publicznie.