Обновление разработчиков Moltghost Изучили Kimi K2 как вариант локальной модели. Это модель MoE с 1 триллионом параметров — даже в квантованном виде ей нужно более 500 ГБ дискового пространства и более 200 ГБ видеопамяти. Наши одно-GPU поды ограничены 45 ГБ, так что это нецелесообразно на текущем оборудовании. На данный момент мы запускаем модели, которые помещаются на одиночные GPU, такие как Phi4-Mini и Qwen3 8B, с моделями рассуждений, такими как DeepSeek-R1, которые будут следующими. Поддержка многопроцессорных кластеров в планах. С точки зрения развертывания, время загрузки сократилось с 75 секунд до 19 секунд. Мы встроили веса OpenClaw и LLM в образ Docker, убрали цикл git pull и сборки, и параллелизировали запуск. Тестировалось на 3 типах GPU: L4 → 18 секунд загрузки, ~2:47 всего A5000 → 19 секунд загрузки, ~6:18 всего A40 → 18 секунд загрузки, ~5:08 всего Клик на живого агента менее чем за 3 минуты на L4. Оставляющее узкое место — инициализация контейнера — RunPod загружает и извлекает наш образ Docker размером 1,3 ГБ на узел GPU до того, как наш код вообще запустится. Это занимает от 2 до 5 минут в зависимости от того, на каком узле вы оказались и есть ли у него уже кэшированный образ. Следующий шаг — зарегистрировать шаблоны RunPod для предварительного кэширования образов на узлах, с целью сократить общее время развертывания до менее чем 1 минуты. Все это все еще работает на локальной разработке. Многомодельный выбор еще не запущен в производстве — нам все еще нужно пересобрать образ Qwen3 8B, чтобы он соответствовал обновленной системе, прежде чем публиковать его.