🚨 Schokkend: Frontier LLM's scoren 85-95% op standaard programmeerbenchmarks. We gaven ze equivalente problemen in talen die ze niet konden hebben gememoriseerd. Ze zakten naar 0-11%. Hier presenteren we EsoLang-Bench. Geaccepteerd voor de workshops Logisch Redeneren en ICBINB op ICLR 2026 🧵