DApp Store | Web3 Hub voor evenementen en spelletjes

Populaire onderwerpen

Ik heb gisteren met Gemini 3 gespeeld via vroege toegang. Een paar gedachten - Ten eerste dring ik meestal aan op voorzichtigheid met openbare benchmarks, omdat ze naar mijn mening behoorlijk te manipuleren zijn. Het komt neer op discipline en zelfbeheersing van het team (dat ondertussen sterk anders wordt gestimuleerd) om testsets niet te overfitten via ingewikkelde gymnastiek over testset-adjacent data in de documentembeddingruimte. Realistisch gezien, omdat iedereen het doet, is de druk om dit te doen hoog. Ga met het model praten. Praat met de andere modellen (Rijd de LLM-cyclus - gebruik elke dag een andere LLM). Ik had gisteren een positieve eerste indruk over persoonlijkheid, schrijven, vibe-codering, humor, enz., zeer solide dagelijkse rijpotentieel, duidelijk een tier 1 LLM, gefeliciteerd aan het team! In de komende dagen/weken ben ik het meest nieuwsgierig en op zoek naar een ensemble over privé-evaluaties, wat veel mensen/organisaties nu lijken te bouwen voor zichzelf en af en toe hier rapporteren.

Boven

Positie

Favorieten