16.000 jetoane pe secundă! 🤯 NU am văzut niciodată atâtea tokenuri în viața mea!! > Nvidia B200 de la Prime > Trinity Mini de la Arcee (26B, MoE) > deservit de VLLM (0.13) cu paralelism de 8 tensori > pipeline de generare a seturilor de date medicale SYNTH > ~350 cerințe/s > ~16k tps!! LA NAIBA!