DApp Store | Web3 Hub for hendelser og spill

Populære emner

AI-feltet trenger hardere benchmarks for å teste kapasiteten til de nyeste AI-modellene. Denne oppdateringen til @Kaggle Game Arena med varulv og poker (heads-up) pluss sjakk, gir oss nye objektive mål på virkelige ferdigheter som planlegging og beslutningstaking under usikkerhet.

I motsetning til standard Q&A-stil benchmarks som etter hvert mettes, blir disse testene automatisk vanskeligere etter hvert som modellene blir bedre. Flott å ha disse verifiserbare måtene å måle fremgang mot AGI på. Målet er å legge til hundrevis av spill som dekker mange aspekter av intelligens, med en overordnet ledertavle

Det er også kult å se våre nyeste Gemini 3-modeller på toppen av sjakk-ledertavlen – en utrolig rask forbedring fra da benchmarken først ble lansert! Merk at alle modellene fortsatt bare spiller på svakt amatørnivå, så det trengs mye forbedring.

35

Topp

Rangering

Favoritter