Cập nhật phát triển Molghost Đã xem xét Kimi K2 như một tùy chọn mô hình địa phương. Đây là một mô hình MoE với 1T tham số — ngay cả khi đã được định lượng, nó cần hơn 500GB dung lượng đĩa và hơn 200GB VRAM. Các pod GPU đơn của chúng tôi tối đa chỉ 45GB, vì vậy điều này không khả thi trên phần cứng hiện tại. Hiện tại, chúng tôi chạy các mô hình phù hợp với GPU đơn như Phi4-Mini và Qwen3 8B, với các mô hình lý luận như DeepSeek-R1 sẽ ra mắt tiếp theo. Hỗ trợ cụm đa GPU đang nằm trong lộ trình. Về phía triển khai, thời gian khởi động đã giảm từ 75 giây xuống còn 19 giây. Chúng tôi đã tích hợp trọng số OpenClaw và LLM vào hình ảnh Docker, loại bỏ vòng lặp git pull và rebuild, và song song hóa quá trình khởi động. Đã thử nghiệm trên 3 loại GPU: L4 → 18 giây khởi động, ~2:47 tổng thời gian A5000 → 19 giây khởi động, ~6:18 tổng thời gian A40 → 18 giây khởi động, ~5:08 tổng thời gian Nhấp vào đại lý trực tiếp trong vòng chưa đầy 3 phút trên L4. Nút thắt còn lại là khởi tạo container — RunPod kéo và giải nén hình ảnh Docker 1.3GB của chúng tôi lên nút GPU trước khi mã của chúng tôi chạy. Điều này mất từ 2 đến 5 phút tùy thuộc vào nút mà bạn đến và liệu nó đã có hình ảnh được lưu vào bộ nhớ đệm hay chưa. Bước tiếp theo là đăng ký các mẫu RunPod để lưu trữ trước hình ảnh trên các nút, nhằm mục tiêu giảm tổng thời gian triển khai xuống dưới 1 phút. Tất cả những điều này vẫn đang chạy trên phát triển địa phương. Việc chọn nhiều mô hình vẫn chưa hoạt động trong sản xuất — chúng tôi vẫn cần xây dựng lại hình ảnh Qwen3 8B để phù hợp với hệ thống đã được cập nhật trước khi công khai.