Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Gemini 3 Pro právě obsadil #1 místo v našem novém AA-Vševědoucnosti Indexu — ale je to složitý příběh
AA-Vševědoucnost je naše nové hodnocení znalostí a halucinací. Vedení Gemini 3 Pro je poháněno vysokou přesností (procento správnosti); model získal o 14 bodů více než další model s nejvyšší přesností, Grok 4. Míra halucinací u Gemini 3 Pro je v hodnocení 88 %, stejně jako u Gemini 2.5 Pro a Gemini 2.5 Flash. To naznačuje, že Gemini 3 Pro dosáhl výrazných znalostních zisků, ale ne materiálních zisků ve své tendenci halucinovat.
Míru halucinací měříme podle toho, jak často model odpovídá špatně, když měl odmítnout, což je definováno jako podíl nesprávných odpovědí ze všech nesprávných pokusů. V AA-Vševědoucnosti jsme zjistili, že mezi přesností a mírou halucinací je malá korelace.
Navíc jsme zjistili, že existuje vysoká korelace mezi velikostí modelů s otevřenými váhami a přesností (ale ne mezi mírou halucinací). Velmi vysoká přesnost Gemini 3 Pro tedy naznačuje, že jde o velmi velký model.
Podrobnosti o AA-Vševědoucnosti 👇 najdete níže

Top
Hodnocení
Oblíbené

