Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Trillion Labs, koreański startup AI, uruchomił Tri-21B-think Preview, mały model rozumowania z otwartymi wagami, który uzyskuje 20 punktów w Indeksie Sztucznej Analizy Inteligencji
Kluczowe wnioski z benchmarków:
➤ Wysoka, ale nie wiodąca inteligencja jak na swój mały rozmiar: Tri-21B-think Preview uzyskuje wysokie wyniki jak na stosunkowo mały rozmiar 21 miliardów parametrów. Model o rozmiarze 21B jest stosunkowo bardziej dostępny do samodzielnego hostowania w porównaniu do wiodących modeli open source, takich jak GLM-5 i Kimi K2.5.
➤ Niska stopa halucynacji: Tri-21B-think Preview uzyskuje -49 w Indeksie AA-Omniscience, własnym benchmarku Sztucznej Analizy, który mierzy niezawodność wiedzy i halucynacje w różnych branżach. Ten dobry wynik jest głównie wynikiem stosunkowo niskiej stopy halucynacji (62%), co jest najniższym wynikiem wśród modeli z Korei Południowej, które benchmarkowaliśmy.
➤ Siła w użyciu narzędzi agentowych: Tri-21B-think Preview uzyskuje 93% w τ²-Bench Telecom, demonstrując silne wyniki w przepływach pracy związanych z użyciem narzędzi agentowych. Tri-21B-think Preview znajduje się w czołówce modeli z otwartymi wagami w tej kategorii, uzyskując podobne wyniki do DeepSeek V3.2 i MiniMax M2.5 w tej kategorii.
➤ Wysokie zużycie tokenów: Tri-21B-think Preview wykazuje bardzo wysokie zużycie tokenów w porównaniu do innych modeli w tej samej klasie inteligencji, używając ~120M tokenów rozumowania w suite Sztucznej Analizy Inteligencji. To porównywalne z K-EXAONE (100M tokenów rozumowania), innym modelem z Korei.
➤ Brak publicznych punktów końcowych: Tri-21B-think Preview to model z otwartymi wagami na licencji Apache 2.0. Obecnie jedynym sposobem na dostęp do modelu jest samodzielne hostowanie. Trillion Labs poinformował, że wkrótce oczekiwany jest dedykowany punkt końcowy pierwszej strony.

Tri-21B-think Preview uzyskuje 93% w teście τ²-Bench Telecom, co pokazuje silną wydajność w zakresie użycia narzędzi agentowych.

Podgląd Tri-21B-think demonstruje bardzo wysokie zużycie tokenów, wykorzystując ~120M tokenów rozumowania w ramach zestawu sztucznej analizy inteligencji.

9,08K
Najlepsze
Ranking
Ulubione
