Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Outro benchmark de IA não resolvido (e admitidamente difícil): "escreva um mistério de assassinato satisfatório em 10 parágrafos. as peças que você precisa para resolver o mistério devem ser claras o suficiente nos primeiros cinco parágrafos para que você possa resolvê-lo, mas obscuras o suficiente para que a vasta maioria das pessoas não consiga"
Os erros são reveladores:
-Claude esquece de adicionar a pista real ao quebra-cabeça (e os detalhes são muito obscuros), um clássico problema de planejamento para LLMs, e não, usar Cowork ou Code não ajuda.
-ChatGPT 5.4 Pro cria uma pista completamente óbvia e depois prossegue a escrever com as metáforas e complicações excessivamente elaboradas que assombraram a ficção do ChatGPT. O Pro se saiu melhor do que o Thinking, no entanto.
-Gemini 3.1 Pro é o mais próximo, mas o gelo é um pouco óbvio, e ele completamente falha na explicação sobre por que a coisa do gelo era importante.



Top
Classificação
Favoritos
