DApp Store | Hub da Web3 para eventos e jogos

Tópicos em alta

Resumo dos principais insights _úteis_ para o público de interpretabilidade mecanicista, especificamente: Distribuições de distância são um diagnóstico barato para geometria aprendida. Dado um espaço de representação, o histograma das distâncias par a par entre pontos amostrados aleatoriamente é uma impressão digital geométrica forte. Diferentes geometrias — euclidiana, esférica, hiperbólica — e diferentes topologias — limitadas vs. periódicas — produzem distribuições de distância nitidamente distintas, mesmo em dimensão moderada. Essas assinaturas surgem da concentração de medida, efeitos de fronteira e curvatura, e são robustas ao ruído. A proposta principal é tratar histogramas de distância não como curiosidades, mas como sondas forenses de qual geometria uma representação aprendida está implicitamente utilizando. A topologia importa independentemente da curvatura. Um n-toro plano e um hipercubo n-dimensional compartilham a mesma geometria euclidiana local, mas suas distribuições de distância diferem substancialmente. O toro elimina os efeitos de bordo, resultando em uma distância média menor e concentração mais apertada (~0,289√n) do que o hipercubo (~0,408√n). Essas diferenças persistem e se agudizam com a dimensão. Isso mostra que muitas "patologias de alta dimensão" atribuídas apenas à dimensionalidade são, na verdade, artefatos de condição de fronteira — uma distinção raramente explicitada na prática de ML. Anomalias de baixa dimensão expõem mecanismos geométricos. Em baixas dimensões, distribuições de distância revelam estruturas não gaussianas diretamente ligadas à geometria. Por exemplo, o toro plano 2D apresenta uma cúspide integrável na distância máxima devido às restrições de canto no quadrado coordenado enrolado. Isso desaparece rapidamente com a dimensão, à medida que a concentração domina. Tais características não são ruído numérico; São consequências analíticas da geometria. Ver (ou não ver) esses artefatos em embeddings aprendidos fornece informações sobre a estrutura efetiva de dimensionalidade e independência dos subespaços de representação. Aplicação de interpretabilidade: forense de espaço de embedding. Dado um modelo treinado, pode-se selecionar subconjuntos semanticamente coerentes de embeddings (por exemplo, entidades geográficas, taxonomias, emoções, conceitos temporais) e calcular seus histogramas de distâncias par a par. Comparar esses histogramas com previsões teóricas permite inferir sobre a geometria que o modelo aprendeu para aquele domínio. Assinaturas esféricas sugeririam representações angulares ou semelhantes a variedades; assinaturas hiperbólicas sugeririam estrutura hierárquica; Assinaturas euclidianas ou toroidais sugeririam espaços de similaridade planos com ou sem artefatos de fronteira. Implicação: representações aprendidas provavelmente são híbridas-geométricas. A maioria dos trabalhos atuais assume uma única geometria global (tipicamente euclidiana ou hiperbólica). A abordagem do histograma naturalmente se generaliza para geometrias mistas, onde diferentes subespaços semânticos instanciam diferentes curvaturas ou topologias. Isso sugere um caminho para representações arquitetonicamente explícitas e conscientes da geometria, onde a geometria é um parâmetro de projeto e não um acidente emergente — e onde ferramentas de interpretabilidade podem localizar que tipo de estrutura um modelo aprendeu, não apenas onde a informação reside. Resumo. Histogramas de distância são sondas simples, rápidas e teoricamente fundamentadas que expõem curvatura, topologia e dimensionalidade efetiva em representações aprendidas. Eles fornecem um diagnóstico em nível geométrico que complementa a interpretabilidade em nível de neurônio e circuito, e sugerem experimentos concretos para testar como os modelos organizam internamente diferentes tipos de conhecimento. (Resumo por Chat 5.2)

Melhores

Classificação

Favoritos