> вы человек > который хочет понять вывод llm > вы читаете статьи > “мы используем стандартные методы” > какие именно? где код? > откройте vllm > 100k строк c++ и python > пользовательский cuda ядро для печати > закройте вкладку > теперь у вас есть этот твит > и мини-sglang > ~5k строк python > реальные производственные функции > четыре процесса > api сервер > токенизатор > планировщик > детокенизатор > общение через zeromq > просто > планировщик - это босс > получает запросы > решает: предварительная выборка или декодирование > группирует их > отправляет работу на gpu > предварительная выборка...