Outro benchmark de IA não resolvido (e admitidamente difícil): "escreva um mistério de assassinato satisfatório em 10 parágrafos. as peças que você precisa para resolver o mistério devem ser claras o suficiente nos primeiros cinco parágrafos para que você possa resolvê-lo, mas obscuras o suficiente para que a vasta maioria das pessoas não consiga" Os erros são reveladores: -Claude esquece de adicionar a pista real ao quebra-cabeça (e os detalhes são muito obscuros), um clássico problema de planejamento para LLMs, e não, usar Cowork ou Code não ajuda. -ChatGPT 5.4 Pro cria uma pista completamente óbvia e depois prossegue a escrever com as metáforas e complicações excessivamente elaboradas que assombraram a ficção do ChatGPT. O Pro se saiu melhor do que o Thinking, no entanto. -Gemini 3.1 Pro é o mais próximo, mas o gelo é um pouco óbvio, e ele completamente falha na explicação sobre por que a coisa do gelo era importante.