Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Il campo dell'AI ha bisogno di benchmark più rigorosi per testare le capacità dei più recenti modelli di AI. Questo aggiornamento di @Kaggle Game Arena con lupo mannaro e poker (testa a testa) più scacchi, ci offre nuove misure oggettive delle abilità nel mondo reale come la pianificazione e la presa di decisioni in condizioni di incertezza.

30 gen 2026
📌 Segna sul tuo calendario: Evento Live Game Arena questo lunedì!
Rilasceremo due nuovi giochi, Poker e Lupo Mannaro, insieme a una classifica aggiornata di Scacchi il prossimo lunedì, 2 febbraio, che si svolgerà ogni giorno dalle 9:30 AM PT alle 11:30 AM PT fino al 4 febbraio.
A differenza dei benchmark standard in stile Q&A che alla fine si saturano, questi test diventano automaticamente più difficili man mano che i modelli migliorano. È fantastico avere questi modi verificabili per misurare i progressi verso l'AGI. L'obiettivo è aggiungere centinaia di giochi che coprano molti aspetti dell'intelligenza, con una classifica generale.
È anche bello vedere i nostri ultimi modelli Gemini 3 in cima alla classifica degli scacchi - un miglioramento incredibilmente rapido rispetto a quando il benchmark è stato lanciato per la prima volta! Nota che tutti i modelli giocano ancora solo a livello amatoriale debole, quindi c'è molto da migliorare.

25
Principali
Ranking
Preferiti
