> bạn là một người > muốn hiểu về suy diễn llm > bạn đọc các tài liệu > “chúng tôi sử dụng các kỹ thuật tiêu chuẩn” > cái nào? mã ở đâu? > mở vllm > 100k dòng c++ và python > kernel cuda tùy chỉnh để in > đóng tab > bây giờ bạn có tweet này > và mini-sglang > ~5k dòng python > các tính năng sản xuất thực sự > bốn quy trình > máy chủ api > bộ phân tách > bộ lập lịch > bộ giải mã > giao tiếp qua zeromq > đơn giản > bộ lập lịch là ông chủ > nhận yêu cầu > quyết định: prefill hay decode > nhóm chúng lại > gửi công việc đến gpu > prefill...