🚨 Șocant: LLM-urile Frontier obțin un scor de 85-95% la benchmark-urile standard de programare. Le-am dat probleme echivalente în limbi pe care nu le-ar fi putut memora. S-au prăbușit la 0-11%. Vă prezint EsoLang-Bench. Acceptat la atelierele de Raționament Logic și ICBINB la ICLR 2026 🧵