🚨 Scioccante: i LLM di Frontier ottengono punteggi dell'85-95% nei benchmark di codifica standard. Abbiamo dato loro problemi equivalenti in lingue che non avrebbero potuto memorizzare. Sono crollati allo 0-11%. Presentiamo EsoLang-Bench. Accettato ai workshop di Ragionamento Logico e ICBINB all'ICLR 2026 🧵