16k tokens por segundo! 🤯 nunca vi tantos tokens na minha vida!!! > nvidia B200 da prime > trinity mini da arcee (26b, moe) > servido por vllm (0.13) com 8 paralelismos de tensores > pipeline de geração de dataset médico SYNTH > ~350 req/s > ~16k tps!!! CARACA!