> olet ihminen > kuka haluaa ymmärtää llm-päättelyä > luet artikkeleita > "käytämme vakiotekniikoita" > mistä? Missä on koodi? > avoin vllm > 100 000 riviä C++:a ja Pythonia > räätälöity cuda-ydin tulostusta varten > sulje välilehti > nyt sinulla on tämä twiitti > ja mini-sglang > ~5 000 riviä pythonia > varsinaiset tuotantoominaisuudet > neljä prosessia > API-palvelin > tokenizer > aikatauluttaja > detokenizer > keskustelua zeromq:n kautta > yksinkertaista > aikatauluttaja on pomo > vastaanottaa pyyntöjä > päättää: esitäyttö vai dekoodaus > erää ne > lähettää töitä näytönohjaimelle > esitäyttö...