> ești o persoană > cine vrea să înțeleagă inferența LLM > citești ziare > "folosim tehnici standard" > care? Unde este codul? > vllm deschis > 100.000 de linii de C++ și Python > nucleu personalizat cuda pentru imprimare > închide fila > acum ai acest tweet > și mini-sglang > ~5k linii de python > caracteristici reale de producție > patru procese > server API > tokenizator > programator > detokenizator > discuții prin zeromq > simplu > programator este șeful > primește cereri > decide: preumplerea sau decodarea > le grupează > trimite lucrări pe placa video > preumplutură...