Acho estranho as pessoas acharem que estão quantizando Frontier Models - na minha opinião, é quase 100% que todos já rodam no FP4 e qualquer coisa menos que isso não está otimizado para GPUs Nvidia, e eu presumiria TPUs, trainium, etc etc
@mikechrzano me disseram que os b300s foram projetados especificamente para as necessidades da OpenAI de flops FP4 - presumivelmente porque eles fazem tudo no FP4 agora
1,06K