Este cara é incrível plus. Ele incorporou um interpretador WebAssembly (WASM) de forma hard-coded nos pesos do modelo Transformer, e de maneira sem perdas (losslessly). Isso equivale a ter um verdadeiro computador rodando internamente em um LLM. Esse computador pode executar cálculos reais (run computations), ao invés de apenas fornecer resultados de cálculos como a maioria dos modelos atuais faz, apenas inferindo. Essa ideia é um pouco semelhante aos chips DSP da TI, onde o ARM é responsável pelo raciocínio lógico, enquanto o DSP é especializado em cálculos de dados de alta velocidade. Cada um aproveita suas forças. Então, fazendo uma analogia, o problema de um LLM não conseguir calcular corretamente qual é maior entre 3.11 e 3.8 pode ser resolvido construindo uma arquitetura híbrida (hybrid architectures): 1. Redes neurais responsáveis pela inferência e compreensão (reasoning) 2. Interpretador embutido / motor de cálculo responsável por cálculos de alta precisão Dessa forma, é possível equilibrar a capacidade de raciocínio inteligente e a precisão de cálculos determinísticos. Isso traz grandes benefícios para cálculos numéricos, simulações físicas, modelagem financeira e operações criptográficas.