Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
AI-feltet trenger hardere benchmarks for å teste kapasiteten til de nyeste AI-modellene. Denne oppdateringen til @Kaggle Game Arena med varulv og poker (heads-up) pluss sjakk, gir oss nye objektive mål på virkelige ferdigheter som planlegging og beslutningstaking under usikkerhet.

30. jan. 2026
📌 Sett av i kalenderen: Live Game Arena-arrangement denne mandagen!
Vi lanserer to nye spill, Poker og Werewolf, sammen med en oppdatert sjakkledertavle neste mandag 2. februar, som går daglig fra kl. 09:30 PT til 11:30 PT frem til 4. februar.
I motsetning til standard Q&A-stil benchmarks som etter hvert mettes, blir disse testene automatisk vanskeligere etter hvert som modellene blir bedre. Flott å ha disse verifiserbare måtene å måle fremgang mot AGI på. Målet er å legge til hundrevis av spill som dekker mange aspekter av intelligens, med en overordnet ledertavle
Det er også kult å se våre nyeste Gemini 3-modeller på toppen av sjakk-ledertavlen – en utrolig rask forbedring fra da benchmarken først ble lansert! Merk at alle modellene fortsatt bare spiller på svakt amatørnivå, så det trengs mye forbedring.

35
Topp
Rangering
Favoritter
