Quando o RETRO foi lançado, pensei que a recuperação é um grande problema para os LLMs, para reduzir o número de parâmetros enquanto aumenta a profundidade do conhecimento dos modelos. Fiquei surpreso ao ver que as empresas evitaram essa ideia. A Whale traz a Recuperação para a mesa: > Mais notavelmente, enquanto se espera que o módulo de memória ajude na recuperação de conhecimento (por exemplo, MMLU +3.4; CMMLU +4.0), observamos ganhos ainda maiores em raciocínio geral (por exemplo, BBH +5.0; ARC-Challenge +3.7) e domínios de código/matemática (HumanEval +3.0; MATH +2.4). Análises mecanicistas revelam que o Engram alivia as camadas iniciais da espinha dorsal da reconstrução estática, aprofundando efetivamente a rede para raciocínios complexos.