DApp-butik | Web3-hubb för evenemang och spel

Trendande ämnen

AI-området behöver hårdare benchmarks för att testa kapaciteten hos de senaste AI-modellerna. Denna uppdatering av @Kaggle Game Arena med varulv och poker (heads-up) plus schack ger oss nya objektiva mått på verkliga färdigheter som planering och beslutsfattande under osäkerhet.

Till skillnad från standardbenchmarks i Q&A-stil som så småningom mättas, blir dessa tester automatiskt svårare ju bättre modellerna är. Fantastiskt att ha dessa verifierbara sätt att mäta framsteg mot AGI. Målet är att lägga till hundratals spel som täcker många aspekter av intelligens, med en övergripande topplista

Också kul att se våra senaste Gemini 3-modeller i toppen av schacktopplistan – en otroligt snabb förbättring jämfört med när benchmarken först lanserades! Observera att alla modeller fortfarande bara spelar på svag amatörnivå, så mycket förbättring behövs.

38

Topp

Rankning

Favoriter