🚨 Yllättävää: Frontierin LLM:t saavat 85–95 % standardeissa koodaustesteissä. Annoimme heille vastaavia tehtäviä kielillä, joita he eivät olisi voineet opetella ulkoa. Ne romahtivat 0–11 prosenttiin. EsoLang-Bench esitellään. Hyväksytty Loogisen päättelyn ja ICBINB:n työpajoihin ICLR 2026 🧵 -tapahtumassa