Jeg spilte med Gemini 3 i går via early access. Noen tanker – Først pleier jeg å oppfordre til forsiktighet med offentlige benchmarks fordi jeg mener de er ganske mulige å manipulere. Det handler om disiplin og selvkontroll fra teamet (som samtidig er sterkt motivert til å unngå å overtilpasse testsett gjennom avanserte gymnastikkøvelser over testsett-tilstøtende data i dokumentinnbyggingsrommet. Realistisk sett, fordi alle andre gjør det, er presset for å gjøre det høyt. Gå og snakk med modellen. Snakk med de andre modellene (Kjør LLM-syklusen – bruk en ny LLM hver dag). Jeg fikk et positivt tidlig inntrykk i går innen personlighet, skriving, vibe-koding, humor osv., veldig solid potensial for daglig bilfører, tydeligvis en tier 1 LLM, gratulerer til teamet! I løpet av de neste dagene/ukene er jeg mest nysgjerrig og på utkikk etter et ensemble fremfor private evalueringer, som mange folk/organisasjoner nå ser ut til å bygge for seg selv og av og til rapporterer om her.