A NVIDIA acabou de publicar um artigo excelente sobre como comprimiram um modelo de 16 bits para 4 bits e conseguiram manter 99,4% de precisão, o que é basicamente sem perdas. É leitura obrigatória. Link abaixo.