A área de IA precisa de benchmarks mais rigorosos para testar as capacidades dos mais recentes modelos de IA. Esta atualização para a @Kaggle Game Arena com lobisomem e poker (heads-up) além de xadrez, oferece-nos novas medidas objetivas de habilidades do mundo real, como planejamento e tomada de decisão sob incerteza.
Kaggle
Kaggle30/01/2026
📌 Marque no seu calendário: Evento de Arena de Jogo Ao Vivo Esta Segunda-Feira! Estamos lançando dois novos jogos, Poker e Lobo Mau, juntamente com um leaderboard atualizado de Xadrez na próxima segunda-feira, 2 de fevereiro, funcionando diariamente das 9:30 AM PT às 11:30 AM PT até 4 de fevereiro.
Ao contrário dos benchmarks padrão de perguntas e respostas que eventualmente saturam, esses testes tornam-se automaticamente mais difíceis à medida que os modelos melhoram. É ótimo ter essas maneiras verificáveis de medir o progresso em direção à AGI. O objetivo é adicionar centenas de jogos cobrindo muitos aspectos da inteligência, com uma tabela de classificação geral.
Também é fixe ver os nossos últimos modelos Gemini 3 no topo da tabela de classificação de xadrez - uma melhoria incrivelmente rápida desde o lançamento do benchmark! Note que todos os modelos ainda jogam apenas a um nível amador fraco, por isso é necessária muita melhoria.
30