🚨 A NVIDIA acabou de fazer o impossível. Eles treinaram um modelo de linguagem de 12 bilhões de parâmetros em 10 trilhões de tokens inteiramente em precisão de 4 bits. Chama-se NVFP4, e pode redefinir a forma como os modelos de IA de ponta são treinados. Aqui está o porquê disto ser importante: • O NVFP4 oferece um rendimento matemático 2–3× mais rápido e 50% menos memória em comparação com o FP8 • Precisão? Praticamente idêntica. (MMLU-Pro: FP8 = 62,62%, NVFP4 = 62,58%) • Problemas de estabilidade? Resolvidos usando transformações de Hadamard aleatórias, arredondamento estocástico e escalonamento 2D • Treinado inteiramente em GPUs NVIDIA Blackwell, a primeira execução de 4 bits estável em 10T tokens Esta é a primeira demonstração bem-sucedida de pré-treinamento em larga escala de 4 bits sem perda de precisão. A próxima geração de modelos de ponta será mais rápida, mais barata e mais ecológica sem compromissos.