🚨 مفاجئ: نماذج Frontier LLMs تحقق 85-95٪ في معايير الترميز القياسية. أعطيناهم مسائل مماثلة بلغات لم يكن بإمكانهم حفظها. انخفضت إلى 0-11٪. نقدم لكم EsoLang-bench. تم قبوله في ورش العمل المنطقية وICBINB في ICLR 2026 🧵