DApp Store | Piattaforma Web3 per eventi e giochi

Argomenti di tendenza

Il campo dell'AI ha bisogno di benchmark più rigorosi per testare le capacità dei più recenti modelli di AI. Questo aggiornamento di @Kaggle Game Arena con lupo mannaro e poker (testa a testa) più scacchi, ci offre nuove misure oggettive delle abilità nel mondo reale come la pianificazione e la presa di decisioni in condizioni di incertezza.

A differenza dei benchmark standard in stile Q&A che alla fine si saturano, questi test diventano automaticamente più difficili man mano che i modelli migliorano. È fantastico avere questi modi verificabili per misurare i progressi verso l'AGI. L'obiettivo è aggiungere centinaia di giochi che coprano molti aspetti dell'intelligenza, con una classifica generale.

È anche bello vedere i nostri ultimi modelli Gemini 3 in cima alla classifica degli scacchi - un miglioramento incredibilmente rapido rispetto a quando il benchmark è stato lanciato per la prima volta! Nota che tutti i modelli giocano ancora solo a livello amatoriale debole, quindi c'è molto da migliorare.

25

Principali

Ranking

Preferiti