🚨 Schockierend: Frontier LLMs erzielen 85-95 % bei standardisierten Programmierbenchmarks. Wir haben ihnen gleichwertige Probleme in Sprachen gegeben, die sie nicht hätten auswendig lernen können. Sie fielen auf 0-11 %. Präsentation von EsoLang-Bench. Akzeptiert für die Workshops zu Logischem Denken und ICBINB bei ICLR 2026 🧵