A NVIDIA acaba de lançar um artigo incrível sobre como comprimiram um modelo de 16 bits para 4 bits e conseguiram manter 99,4% de precisão, o que é basicamente sem perdas. É uma leitura obrigatória. Link abaixo.