🚨 Chocante: Os LLMs Frontier obtêm 85-95% em benchmarks de codificação padrão. Demos-lhes problemas equivalentes em linguagens que não poderiam ter memorizado. Eles colapsaram para 0-11%. Apresentando o EsoLang-Bench. Aceito nos workshops de Raciocínio Lógico e ICBINB na ICLR 2026 🧵