Ce gars est vraiment impressionnant. Il a intégré un interpréteur WebAssembly (WASM) de manière hard-coded dans les poids du modèle Transformer, et c'est sans perte (losslessly). C'est comme si une véritable machine à calculer fonctionnait à l'intérieur du LLM. Cette machine peut exécuter des calculs réels (run computations), au lieu de simplement donner des résultats de calcul comme le font la plupart des modèles actuels en utilisant l'inférence. Cette idée est un peu similaire aux puces DSP de TI, avec l'ARM responsable de la pensée logique, et le DSP chargé des calculs de données à grande vitesse. Chacun à son avantage. Alors, pour faire une analogie, le problème que le LLM a souvent de ne pas savoir si 3.11 est plus grand que 3.8 pourrait être résolu en construisant une sorte d'architecture hybride (hybrid architectures) : 1. Le réseau de neurones est responsable du raisonnement et de la compréhension (reasoning) 2. L'interpréteur embarqué / moteur de calcul est responsable des calculs de haute précision Ainsi, on peut à la fois prendre en compte la capacité de raisonnement intelligent et la précision des calculs déterministes. Cela serait très bénéfique pour les calculs numériques, la simulation physique, la modélisation financière et les opérations cryptographiques.