Ще один нерозкритий (і, чесно кажучи, складний) тест ШІ: «напишіть задовільну детективну історію з 10 абзаців. Частини, які тобі потрібні для розгадки таємниці, мають бути достатньо зрозумілими в перших п'яти абзацах, щоб ти міг її розгадати, але достатньо незрозумілими, щоб більшість людей не змогли це зробити." Помилки показують: -Клод забуває додати справжню підказку до головоломки (а деталі надто незрозумілі), класична задача планування для LLM, і ні, використання Cowork чи Code не допомагає. -ChatGPT 5.4 Pro створює абсолютно очевидну підказку, а потім починає писати з надто складними метафорами та ускладненнями, які переслідують художню літературу ChatGPT. Проте Pro показав себе краще, ніж Thinking. -Gemini 3.1 Pro найближчий, але лід трохи очевидний, і це повністю спотворює пояснення, чому лід був важливим.