Tekoälyala tarvitsee vaikeampia testejä uusimpien tekoälymallien kykyjen testaamiseen. Tämä päivitys @Kaggle Game Arenaan, jossa on ihmissusi ja pokeri (heads-up) sekä shakki, antaa meille uusia objektiivisia mittareita todellisista taidoista, kuten suunnittelusta ja päätöksenteosta epävarmuuden keskellä.
Kaggle
Kaggle30.1.2026
📌 Merkitse kalenteriisi: Live Game Arena -tapahtuma tänä maanantaina! Julkaisemme kaksi uutta peliä, Pokerin ja Werewolfin, sekä päivitetyn shakkitulostaulukon ensi maanantaina 2. helmikuuta, joka on käynnissä päivittäin klo 9.30–11.30 PT 4. helmikuuta asti.
Toisin kuin tavalliset kysymys-vastaus -tyyppiset testit, jotka lopulta kyllästyvät, nämä testit vaikeutuvat automaattisesti mallien kehittyessä. Hienoa, että on olemassa näitä todennettavissa olevia tapoja mitata edistymistä kohti AGI:tä. Tavoitteena on lisätä satoja pelejä, jotka kattavat monia älykkyyden osa-alueita, ja saada kokonaisvaltainen tulostaulukko
On myös hienoa nähdä uusimmat Gemini 3 -mallimme shakin tulostaulukon kärjessä – uskomattoman nopea parannus verrattuna siihen, kun benchmark julkaistiin! Huomaa, että kaikki mallit pelaavat edelleen vain heikolla amatööritasolla, joten paljon parannusta tarvitaan.
28