Tolok ukur AI lain yang belum terpecahkan (& diakui sulit): "tulis misteri pembunuhan 10 paragraf yang memuaskan. Potongan-potongan yang Anda butuhkan untuk memecahkan misteri harus cukup jelas dalam lima paragraf pertama sehingga Anda dapat menyelesaikannya, tetapi cukup kabur sehingga sebagian besar orang tidak akan melakukannya" Kesalahan mengungkapkan: -Claude lupa menambahkan petunjuk sebenarnya ke teka-teki (dan detailnya terlalu tidak jelas), masalah perencanaan klasik untuk LLM, dan tidak, menggunakan Cowork atau Code tidak membantu. -ChatGPT 5.4 Pro menciptakan petunjuk yang benar-benar jelas dan kemudian melanjutkan untuk menulis dengan metafora dan komplikasi yang terlalu rumit yang menghantui fiksi ChatGPT. Pro melakukannya lebih baik daripada Thinking. -Gemini 3.1 Pro adalah yang paling dekat, tetapi esnya sedikit jelas, dan itu benar-benar mengacaukan penjelasan tentang mengapa es itu penting.