Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Przeprowadziliśmy naszą najnowszą ewaluację zaawansowanego rozumowania Box AI na Opus 4.5 z średnim i wysokim wysiłkiem i zauważyliśmy wzrost o 20 punktów procentowych w porównaniu do Opus 4.1. To szalone, że Opus 4.1 pojawił się zaledwie 3 miesiące temu.
Ta ewaluacja zbliża się do przybliżenia tego, co robi pracownik wiedzy jako odrębne zadanie z ich dokumentami przedsiębiorstwa. Może to być analityk finansowy, który analizuje firmę, lub konsultant prowadzący badania dla klienta.
Ewaluacja ocenia model na podstawie tego, jak odpowiada na złożony biznesowy prompt w różnych kryteriach. Jesteśmy wciąż na wczesnym etapie tej ewaluacji i będziemy ją rozszerzać na szerszy zakres branż i przypadków użycia.
Jasne jest, że te najnowsze modele rozumowania będą coraz lepsze w ekonomicznie użytecznej pracy w każdej aktualizacji. To zaczęło się początkowo od kodowania, ale zobaczymy podobne ulepszenia w opiece zdrowotnej, prawie, usługach finansowych, produkcji i wielu innych dziedzinach.

Najlepsze
Ranking
Ulubione

