16k tokens par seconde ! 🤯 Je n'ai JAMAIS vu autant de tokens de ma vie !!! > nvidia B200 de prime > trinity mini d'arcee (26b, moe) > servi par vllm (0.13) avec 8 parallélismes de tenseurs > pipeline de génération de dataset médical SYNTH > ~350 req/s > ~16k tps !!! MÉCHANT !