Sempre foi assim que eu assumi que os LLMs acabariam funcionando, porque é assim que eu (e presumivelmente a maioria dos outros) penso Eu assumo que a unidade base de pensamento é essa coisa de vetor de pensamento gestalt, não "palavras", e todos nós apenas desenvolvemos uma maneira muito rápida de traduzir isso em palavras, porque as palavras são mais comunicáveis do que pedaços de pensamento Esse sempre foi o meu problema com o discurso de "algumas pessoas não têm um monólogo interno!" Simplesmente não faz sentido que as palavras sejam a unidade base em que as pessoas pensam. É como se fosse 1000x mais rápido pensar em termos de imagens ou esses pedaços de pensamento ou o que quer que seja Eu assumo que parece apenas que as pessoas pensam em palavras porque, quando descrevem o que estão pensando para os outros, precisam traduzir os pedaços de pensamento em palavras - já que é assim que nos comunicamos - e esse processo converte seus pensamentos reais na forma de um monólogo Mas só faz sentido pensar em palavras quando você precisa produzir alguma forma de comunicação. Caso contrário, não é muito eficiente E os cérebros humanos são incrivelmente eficientes
Simplifying AI
Simplifying AI23/03, 00:54
🚨 NOTÍCIA DE ÚLTIMA HORA: A Tencent acabou com o paradigma do "próximo-token". A Tencent e a Tsinghua lançaram o CALM (Modelos de Linguagem Autoregressivos Contínuos), e isso desestabiliza completamente o paradigma do próximo-token. Os LLMs atualmente desperdiçam enormes quantidades de computação prevendo tokens discretos e únicos através de uma enorme camada softmax de vocabulário. É lento e escala mal. O CALM contorna totalmente o vocabulário. Ele usa um autoencoder de alta fidelidade para comprimir pedaços de texto em um único vetor contínuo com 99,9% de precisão na reconstrução. O modelo agora prevê o "próximo vetor" em um espaço contínuo. Os números são realmente insanos: - Cada passo generativo agora carrega 4× a largura de banda semântica. - O computacional de treinamento é reduzido em 44%. - O gargalo softmax é completamente removido. Estamos literalmente assistindo os modelos de linguagem evoluírem de digitar símbolos discretos para transmitir pensamentos contínuos. Isso muda toda a trajetória da IA.
Estou apenas comentando sobre o mecanismo descrito aqui, a propósito, não sobre a tecnologia real da tencent ou qualquer outra coisa. Assumo que a transição de vetores para tokens vai ser bastante lenta/ineficiente por um bom tempo e duvido que isso REVOLUCIONE a IA ou algo assim a curto prazo.
286