Včera jsem hrál Gemini 3 přes předběžný přístup. Několik myšlenek – Nejprve obvykle doporučuji opatrnost u veřejných benchmarků, protože podle mě je docela možné je překonat. Jde o disciplínu a sebekontrolu týmu (který je mezitím silně motivován k jinému účelu), aby se nepřecvičil testovými sadami pomocí složitých gymnastik nad daty sousedními s testovými sadami v prostoru pro zakládání dokumentů. Realisticky, protože to dělají všichni ostatní, je tlak na to vysoký. Jdi si promluvit s modelem. Promluvte si s ostatními modely (Jezděte na LLM cyklu – používejte každý den jiný LLM). Včera jsem měl pozitivní počáteční dojem v osobnosti, psaní, programování vibrace, humoru atd., velmi solidní potenciál pro každodenní jízdu, jasně tier 1 LLM, gratuluji týmu! V následujících dnech/týdnech jsem nejvíc zvědavý a hledám soubor místo soukromých hodnocení, které si teď spousta lidí/organizací vytváří sama a občas zde píše.