Een ander onopgelost (& toegegeven moeilijk) AI benchmark: "schrijf een bevredigende moordmysterie van 10 paragrafen. de stukjes die je nodig hebt om het mysterie op te lossen moeten duidelijk genoeg zijn in de eerste vijf paragrafen zodat je het kunt oplossen, maar obscuur genoeg dat de overgrote meerderheid van de mensen dat niet kan." Fouten zijn onthullend: -Claude vergeet de daadwerkelijke aanwijzing aan de puzzel toe te voegen (en de details zijn te obscuur), een klassiek planningsprobleem voor LLM's, en nee, het gebruik van Cowork of Code helpt niet. -ChatGPT 5.4 Pro creëert een volledig voor de hand liggende aanwijzing en gaat vervolgens verder met het schrijven met de over-elaborate metaforen en complicaties die ChatGPT fictie hebben achtervolgd. Pro deed het beter dan Thinking, hoewel. -Gemini 3.1 Pro is het dichtstbij, maar het ijs is een beetje voor de hand liggend, en het flubt volledig de uitleg over waarom de ijsdingen belangrijk waren.