Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
El campo de la IA necesita referencias más exigentes para probar las capacidades de los modelos de IA más recientes. Esta actualización de @Kaggle Game Arena, con hombre lobo y póker (heads-up) más ajedrez, nos ofrece nuevas medidas objetivas de habilidades reales como la planificación y la toma de decisiones bajo incertidumbre.

30 ene 2026
📌 ¡Marca tu calendario: evento en arena de juegos en vivo este lunes!
Vamos a lanzar dos nuevos juegos, Poker y Werewolf, junto con una clasificación actualizada de ajedrez el próximo lunes 2 de febrero, que se publicará diariamente de 9:30 AM PT a 11:30 AM PT hasta el 4 de febrero.
A diferencia de los benchmarks estándar de preguntas y respuestas que acaban saturando, estos tests se vuelven más difíciles a medida que los modelos mejoran. Es genial tener estas formas verificables de medir el progreso hacia la AGI. El objetivo es añadir cientos de partidas que cubran muchos aspectos de la inteligencia, con una clasificación general
También es genial ver nuestros últimos modelos Gemini 3 en lo más alto de la tabla de clasificación de ajedrez: ¡una mejora increíblemente rápida respecto a cuando se lanzó el benchmark! Ten en cuenta que todos los modelos siguen jugando solo a nivel amateur débil, así que hay mucha mejora necesaria.

40
Populares
Ranking
Favoritas
