Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Wir haben unsere neueste Box AI Advanced Reasoning-Evaluierung auf Opus 4.5 mit mittlerem und hohem Aufwand durchgeführt und einen Anstieg von 20 Prozentpunkten im Vergleich zu Opus 4.1 festgestellt. Was verrückt ist, darüber nachzudenken, ist, dass Opus 4.1 erst vor 3 Monaten herauskam.
Diese Evaluierung kommt näher daran, zu approximieren, was ein Wissensarbeiter als diskrete Aufgabe mit seinen Unternehmensdokumenten macht. Es könnte ein Finanzanalyst sein, der ein Unternehmen analysiert, oder ein Berater, der für einen Kunden recherchiert.
Die Evaluierung bewertet das Modell danach, wie es auf eine komplexe Geschäftsaufforderung über eine Reihe von Kriterien antwortet. Wir sind mit dieser Evaluierung noch am Anfang und werden sie auf ein breiteres Spektrum von Branchen und Anwendungsfällen ausweiten.
Was klar ist, ist, dass diese neuesten Reasoning-Modelle mit jedem Update immer besser werden, wenn es um wirtschaftlich nützliche Arbeit geht. Das begann zunächst mit dem Programmieren, aber wir werden ähnliche Verbesserungen im Gesundheitswesen, im Recht, in den Finanzdienstleistungen, in der Fertigung und in vielen anderen Bereichen sehen.

Top
Ranking
Favoriten

