16k token al secondo! 🤯 non ho MAI visto così tanti token in vita mia!!! > nvidia B200 da prime > trinity mini da arcee (26b, moe) > servito da vllm (0.13) con 8 parallelismi di tensori > pipeline di generazione del dataset MEDICAL SYNTH > ~350 req/s > ~16k tps!!! CAVOLO!