Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
> vous êtes une personne
> qui veut comprendre l'inférence llm
> vous lisez des articles
> « nous utilisons des techniques standard »
> lesquelles ? où est le code ?
> ouvrez vllm
> 100k lignes de c++ et python
> noyau cuda personnalisé pour l'impression
> fermer l'onglet
> maintenant vous avez ce tweet
> et mini-sglang
> ~5k lignes de python
> fonctionnalités de production réelles
> quatre processus
> serveur api
> tokenizer
> planificateur
> détokenizer
> communiquer via zeromq
> simple
> le planificateur est le patron
> reçoit des demandes
> décide : pré-remplir ou décoder
> les regroupe
> envoie le travail au gpu
> pré-remplir...

Meilleurs
Classement
Favoris
