"Geometria de Kullback" refere-se ao ponto de vista geométrico construído em torno da divergência de Kullback–Leibler (KL), que mede como uma distribuição de probabilidade difere de outra. Em vez de tratar probabilidades como números simples, essa geometria trata famílias de distribuições como espaços curvos onde a distância é definida pela perda de informação. Na teoria das probabilidades, a divergência KL e sua geometria são usadas para estudar convergência, grandes desvios e aproximações ótimas entre modelos aleatórios. No aprendizado de máquina, a geometria de Kullback está no centro da inferência variacional, da expectativa–maximização e dos modelos gerativos modernos, onde aprendizado significa mover um modelo por esse espaço de informação para se aproximar da distribuição dos dados. Na vida real, ela aparece na compressão de dados, processamento de sinais e tomada de decisão, onde minimizar a divergência de KL significa usar modelos que desperdiçam o mínimo de informação possível ao representar a realidade incerta. Imagem: