🚨 Šokující: Frontier LLM dosahují 85-95 % na standardních programátorských testech. Dali jsme jim ekvivalentní úlohy v jazycích, které si nemohli zapamatovat. Ty se zhroutily na 0-11 %. Představujeme EsoLang-Bench. Přijat na workshopy Logického uvažování a ICBINB na ICLR 2026 🧵