> ти — людина >, хто хоче зрозуміти висновки LLM > ти читаєш газети > «ми використовуємо стандартні техніки» > які саме? Де код? > відкритий vllm > 100 тисяч рядків C++ і Python > кастомне ядро CUDA для друку > закрити вкладку > тепер у вас є цей твіт > і міні-сгланг > ~5 тисяч рядків Python > фактичні виробничі особливості > чотири процеси > API сервер > tokenizer > планувальник > detokenizer > говорити про zeroMQ > просто > планувальник — це бос > отримує запити > вирішує: попередньо заповнити або декодувати > збирає їх партії > надсилає роботу на GPU > попереднє заповнення...