Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Resumo das principais _insights_ úteis para a multidão de interpretabilidade mecanicista especificamente:
As distribuições de distância são um diagnóstico barato para a geometria aprendida.
Dada uma espaço de representação, o histograma das distâncias par a par entre pontos amostrados aleatoriamente é uma forte impressão geométrica. Diferentes geometrias—euclidiana, esférica, hiperbólica—e diferentes topologias—limitada vs. periódica—produzem distribuições de distância nitidamente distintas, mesmo em dimensões moderadas. Essas assinaturas surgem da concentração de medida, efeitos de contorno e curvatura, e são robustas ao ruído. A proposta chave é tratar os histogramas de distância não como curiosidades, mas como sondas forenses do que a geometria de uma representação aprendida está implicitamente utilizando.
A topologia importa independentemente da curvatura.
Um n-torus plano e um hipercubo n-dimensional compartilham a mesma geometria euclidiana local, no entanto, suas distribuições de distância diferem substancialmente. O torus elimina os efeitos de contorno, resultando em uma distância média mais baixa e uma concentração mais apertada (~0.289√n) do que o hipercubo (~0.408√n). Essas diferenças persistem e se acentuam com a dimensão. Isso mostra que muitas “patologias de alta dimensão” atribuídas apenas à dimensionalidade são, na verdade, artefatos de condição de contorno—uma distinção raramente feita explicitamente na prática de ML.
Anomalias de baixa dimensão expõem mecanismos geométricos.
Em dimensões baixas, as distribuições de distância revelam uma estrutura não gaussiana ligada diretamente à geometria. Por exemplo, o torus plano 2D exibe uma cúspide integrável na distância máxima devido a restrições de canto no quadrado de coordenadas envolto. Isso desaparece rapidamente com a dimensão à medida que a concentração domina. Tais características não são ruído numérico; são consequências analíticas da geometria. Ver (ou não ver) esses artefatos em embeddings aprendidos fornece informações sobre a dimensionalidade efetiva e a estrutura de independência dos subespaços de representação.
Aplicação de interpretabilidade: forense do espaço de embeddings.
Dado um modelo treinado, pode-se selecionar subconjuntos semanticamente coerentes de embeddings (por exemplo, entidades geográficas, taxonomias, emoções, conceitos temporais) e calcular seus histogramas de distância par a par. Comparar esses histogramas com previsões teóricas permite inferir sobre a geometria que o modelo aprendeu para aquele domínio. Assinaturas esféricas sugeririam representações angulares ou semelhantes a variedades; assinaturas hiperbólicas sugeririam estrutura hierárquica; assinaturas euclidianas ou toroidais sugeririam espaços de similaridade planos com ou sem artefatos de contorno.
Implicação: representações aprendidas são provavelmente híbrido-geométricas.
A maioria dos trabalhos atuais assume uma única geometria global (tipicamente euclidiana ou hiperbólica). A abordagem do histograma generaliza naturalmente para geometrias mistas, onde diferentes subespaços semânticos instanciam diferentes curvaturas ou topologias. Isso sugere um caminho em direção a representações arquitetonicamente explícitas e conscientes da geometria, onde a geometria é um parâmetro de design em vez de um acidente emergente—e onde ferramentas de interpretabilidade podem localizar que tipo de estrutura um modelo aprendeu, não apenas onde a informação reside.
Resumo.
Os histogramas de distância são sondas simples, rápidas e teoricamente fundamentadas que expõem curvatura, topologia e dimensionalidade efetiva em representações aprendidas. Eles fornecem um diagnóstico a nível de geometria que complementa a interpretabilidade a nível de neurônios e circuitos, e sugerem experimentos concretos para testar como os modelos organizam internamente diferentes tipos de conhecimento.
(Resumo por Chat 5.2)


Top
Classificação
Favoritos
