Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Artificial Analysis
Niezależna analiza modeli AI i dostawców usług hostingowych - wybierz najlepszego dostawcę modelu i API dla swojego przypadku użycia
Cerebras demonstruje swoją zdolność do hostowania dużych MoEs z bardzo wysokimi prędkościami w tym tygodniu, uruchamiając punkty końcowe Qwen3 235B 2507 i Qwen3 Coder 480B przy >1,500 tokenów wyjściowych/s
➤ @CerebrasSystems teraz oferuje punkty końcowe zarówno dla Qwen3 235B 2507 Reasoning, jak i Non-reasoning. Oba modele mają łącznie 235B parametrów, z 22B aktywnymi.
➤ Qwen 3 235B 2507 Reasoning oferuje inteligencję porównywalną z o4-mini (wysoka) i DeepSeek R1 0528. Wariant Non-reasoning oferuje inteligencję porównywalną z Kimi K2 i znacznie wyższą niż GPT-4.1 oraz Llama 4 Maverick.
➤ Qwen3 Coder 480B ma łącznie 480B parametrów, z 35B aktywnymi. Ten model jest szczególnie silny w zakresie kodowania agentowego i może być używany w różnych narzędziach dla agentów kodujących, w tym w Qwen3-Coder CLI.
Uruchomienia Cerebras reprezentują pierwszy raz, gdy ten poziom inteligencji jest dostępny przy tych prędkościach wyjściowych i mają potencjał do odblokowania nowych zastosowań - jak użycie modelu reasoning dla każdego kroku agenta bez konieczności czekania minut.

23,6K
🇰🇷 LG niedawno wprowadziło EXAONE 4.0 32B - uzyskuje 62 punkty w Indeksie Sztucznej Analizy Inteligencji, co jest najwyższym wynikiem dla modelu 32B do tej pory.
EXAONE 4.0 @LG_AI_Research jest dostępne w dwóch wariantach: modelu hybrydowego 32B, dla którego raportujemy wyniki benchmarków, oraz mniejszego modelu 1.2B zaprojektowanego do aplikacji na urządzeniach, którego jeszcze nie testowaliśmy.
Wraz z niedawnym wydaniem Solar Pro 2 od Upstage, ekscytujące jest widzieć koreańskie laboratoria AI dołączające do USA i Chin w czołówce wykresów inteligencji.
Kluczowe wyniki:
➤ 🧠 EXAONE 4.0 32B (Rozumowanie): W trybie rozumowania EXAONE 4.0 uzyskuje 62 punkty w Indeksie Sztucznej Analizy Inteligencji. To odpowiada Claude 4 Opus i nowemu Llama Nemotron Super 49B v1.5 od NVIDIA, a tylko 1 punkt za Gemini 2.5 Flash.
➤ ⚡ EXAONE 4.0 32B (Bez rozumowania): W trybie bez rozumowania EXAONE 4.0 uzyskuje 51 punktów w Indeksie Sztucznej Analizy Inteligencji. Odpowiada Llama 4 Maverick pod względem inteligencji, mimo że ma tylko ~1/4 całkowitych parametrów (chociaż ma ~2x aktywnych parametrów).
➤ ⚙️ Tokeny wyjściowe i obszerność: W trybie rozumowania EXAONE 4.0 użyło 100M tokenów wyjściowych dla Indeksu Sztucznej Analizy Inteligencji. To więcej niż w niektórych innych modelach granicznych, ale zgadza się z ostatnimi trendami modeli rozumujących, które używają więcej tokenów wyjściowych, aby 'myśleć więcej' - podobnie jak Llama Nemotron Super 49B v1.5, Grok 4 i Qwen3 235B 2507 Reasoning. W trybie bez rozumowania EXAONE 4.0 użyło 15M tokenów - dużo jak na model bez rozumowania, ale nie tak dużo jak 30M Kimi K2.
Kluczowe szczegóły:
➤ Hybrydowe rozumowanie: Model oferuje opcjonalność między trybem 'rozumowania' a 'bez rozumowania'.
➤ Dostępność: Obecnie hostowane przez @friendliai i konkurencyjnie wycenione (szczególnie w porównaniu do opcji własnościowych) przez FriendliAI na 1 USD za 1M tokenów wejściowych i wyjściowych.
➤ Otwarte wagi: EXAONE 4.0 to model z otwartymi wagami dostępny na podstawie Umowy Licencyjnej Modelu AI EXAONE 1.2. Licencja ogranicza użycie komercyjne.
➤ Multimodalność: Tylko tekstowe wejście i wyjście.
➤ Okno kontekstowe: 131k tokenów.
➤ Parametry: 32B aktywnych i całkowitych parametrów, dostępnych w precyzji 16bit i 8bit (co oznacza, że model może być uruchamiany na pojedynczym chipie H100 w pełnej precyzji).

41,33K
Ogłaszamy ranking Artificial Analysis Music Arena: z ponad 5 tys. głosów, Suno v4.5 jest wiodącym modelem generacji muzyki, a za nim znajduje się FUZZ-1.1 Pro od Riffusion.
Lyria 2 od Google zajmuje trzecie miejsce w naszym rankingu instrumentalnym, a v1.5 Allegro od Udio zajmuje trzecie miejsce w naszym rankingu wokalnym.
Ranking Instrumentalny przedstawia się następująco:
🥇 @SunoMusic V4.5
🥈 @riffusionai FUZZ-1.1 Pro
🥉 @GoogleDeepMind Lyria 2
@udiomusic v1.5 Allegro
@StabilityAI Stable Audio 2.0
@metaai MusicGen
Ranking oparty jest na głosach społeczności w różnych gatunkach i na różnorodnych promptach. Chcesz, aby twój prompt został wyróżniony? Możesz przesłać prompt w arenie już dziś.
👇 Zobacz poniżej ranking wokalny i link do udziału!

21,95K
Zmiana popytu modelu 2024 na 2025: Google (+49pkt), DeepSeek (+53pkt) i xAI (+31pkt) osiągnęły ogromne zyski w udziale w popycie w ciągu ostatniego roku
@Google przeszedł z bycia spóźnionym graczem w AI do lidera AI z ~2,5-krotnym wzrostem proporcji respondentów korzystających lub rozważających serię modeli Gemini. Kluczowym czynnikiem tego wzrostu były znaczące zyski Google w zakresie inteligencji: Gemini 2.5 Pro zajmuje obecnie 3. miejsce w naszym Indeksie Inteligencji Analizy Sztucznej, w porównaniu do znacznego opóźnienia za OpenAI i Anthropic na początku 2024 roku.
@deepseek_ai w I połowie 2024 roku wydał tylko DeepSeek 67B, model, który miał ograniczoną adopcję i wypadał słabiej niż Llama 3 70B. DeepSeek po raz pierwszy zauważył pewne zainteresowanie pod koniec 2024 roku po wydaniu swojego modelu V2, a następnie szybko zyskał na popularności na początku 2025 roku dzięki modelom V3 i R1, które wyniosły ich na pozycję lidera wśród modeli z otwartymi wagami.
@xai wydał swój pierwszy model Grok-1 w połowie I połowy 2024 roku i od tego czasu szybko wspiął się na pozycję lidera w zakresie inteligencji we wszystkich modelach dzięki kolejnym wydaniom, kulminując w zeszłotygodniowej premierze Grok 4.
Źródło: Badanie dotyczące adopcji AI przez Artificial Analysis H1 2025 (raport dostępny na stronie internetowej Artificial Analysis)

388,82K
Dostawcy Kimi K2: Groq obsługuje Kimi K2 z prędkością >400 tokenów/s, 40 razy szybciej niż API pierwszej strony Moonshot.
Gratulacje dla wielu dostawców za szybkie uruchomienie API dla Kimi K2, w tym @GroqInc, @basetenco, @togethercompute, @FireworksAI_HQ, @parasail_io, @novita_labs, @DeepInfra, a oczywiście @Kimi_Moonshot. To imponujące, biorąc pod uwagę rozmiar modelu wynoszący 1 bilion parametrów.
Groq wyróżnia się błyskawiczną prędkością. DeepInfra, Novita i Baseten wyróżniają się cenami, będąc jedynymi dostawcami, którzy wyceniają podobnie lub taniej niż API pierwszej strony Moonshot.
Zobacz poniżej dalsze porównania między dostawcami. Oczekujemy szybkiego wzrostu prędkości u niektórych dostawców, gdy zespoły optymalizują model K2 - nasze dane poniżej pokazują mediany prędkości z ostatnich 72 godzin, ale już widzimy, że DeepInfra skoczył do 62 tokenów/s w dzisiejszych pomiarach.

52,04K
Podczas gdy Kimi k2 od Moonshot AI jest wiodącym modelem o otwartych wagach, który nie wykorzystuje rozumowania w Indeksie Sztucznej Analizy Inteligencji, generuje ~3 razy więcej tokenów niż inne modele bez rozumowania, zacierając granice między rozumowaniem a brakiem rozumowania.
Kimi k2 jest największym modelem o otwartych wagach - 1T całkowitych parametrów z 32B aktywnymi (wymaga to ogromnej pamięci 1TB w natywnym FP8, aby przechować wagi). Mamy k2 na 57. miejscu w Indeksie Sztucznej Analizy Inteligencji, co jest imponującym wynikiem, który stawia go powyżej modeli takich jak GPT-4.1 i DeepSeek V3, ale za wiodącymi modelami rozumującymi.
Do tej pory istniała wyraźna różnica między modelami rozumującymi a modelami bez rozumowania w naszych ocenach - definiowana nie tylko przez to, czy model używa tagów <reasoning>, ale przede wszystkim przez użycie tokenów. Mediana liczby tokenów używanych do odpowiedzi na wszystkie oceny w Indeksie Sztucznej Analizy Inteligencji jest ~10 razy wyższa dla modeli rozumujących niż dla modeli bez rozumowania.
@Kimi_Moonshot's Kimi k2 używa ~3 razy więcej tokenów niż mediana modelu bez rozumowania. Jego użycie tokenów jest tylko o 30% niższe niż Claude 4 Sonnet i Opus, gdy są uruchamiane w ich maksymalnym budżecie w trybie rozszerzonego myślenia, i jest prawie trzykrotnie wyższe niż użycie tokenów zarówno Claude 4 Sonnet, jak i Opus z wyłączonym rozumowaniem.
Zalecamy zatem, aby Kimi k2 był porównywany z Claude 4 Sonnet i Opus w ich maksymalnych budżetach w trybie rozszerzonego myślenia, a nie z wynikami modeli Claude 4 bez rozumowania.
Kimi k2 jest dostępny w API pierwszej strony @Kimi_Moonshot oraz w @FireworksAI_HQ, @togethercompute, @novita_labs i @parasail_io.
Zobacz poniżej i na Sztucznej Analizie, aby uzyskać dalszą analizę 👇



60,38K
Nowe API Deep Research od OpenAI kosztuje do ~$30 za wywołanie API! Te nowe punkty końcowe API Deep Research mogą być najszybszym sposobem na wydawanie pieniędzy.
W naszych 10 testowych zapytaniach deep research wydaliśmy 100 USD na o3 i 9,18 USD na o4-mini. Jak koszty mogą być tak wysokie? Wysokie ceny i miliony tokenów.
Te punkty końcowe to wersje o3 i o4-mini, które zostały RL’d do zadań deep research. Dostępność przez API pozwala na ich użycie zarówno z narzędziem wyszukiwania w sieci OpenAI, jak i z niestandardowymi źródłami danych za pośrednictwem zdalnych serwerów MCP.
Ceny o4-mini-deep-research są 5 razy niższe niż ceny o3-deep-research. W naszych testowych zapytaniach o4-mini wydaje się również używać mniej tokenów - w sumie było ponad 10 razy tańsze w naszych 10 testowych zapytaniach.
Cennik:
➤ o3-deep-research kosztuje 10 USD /M wejścia (2,50 USD za wejście z pamięci podręcznej), 40 USD /M wyjścia
➤ o4-mini-deep-research kosztuje 2 USD /M wejścia (0,5 USD za wejście z pamięci podręcznej), 8 USD /M wyjścia
Te punkty końcowe są znacznie droższe niż standardowe punkty końcowe o3 i o4-mini od OpenAI - te są w cenach:
➤ o3: 2 USD /M (0,5 USD z pamięci podręcznej) wejścia, 8 USD /M wyjścia dla o3
➤ o4-mini: 1,1 USD /M (0,275 USD z pamięci podręcznej) wejścia, 4,4 USD /M wyjścia.

37,03K
Black Forest Labs zamierza stworzyć falę nowych startupów dzięki ich modelowi edycji obrazów z otwartymi wagami, który został wydany dzisiaj
- Wirtualne przymierzanie stanie się 10 razy lepsze, ale to dopiero początek. Zobaczymy również nowe doświadczenia, gdy ludzie będą kreatywni z tymi modelami (o wiele bardziej rozbudowane niż filtry Snapchat i Instagram)
- Model ma tylko 12B i można go dostosować na sprzęcie konsumenckim
- Platformy takie jak @FAL oferują pełne wsparcie dla treningu LoRA
Podziękowania dla @FAL za poniższy obraz, mają świetny artykuł na temat swojej oferty dostosowywania (link poniżej)

34,13K
Edycja obrazów jest teraz open source! Black Forest Labs właśnie wydało model edycji obrazów z otwartymi wagami, porównywalny pod względem wydajności z modelami własnościowymi.
@bfl_ml wydało FLUX.1 Kontext [dev], model edycji obrazów o wielkości 12B. Otrzymaliśmy dostęp przedpremierowy i testowaliśmy go w naszym Artificial Analysis Image Arena.
Niezależnie zweryfikowaliśmy, że oferuje porównywalną lub lepszą wydajność w porównaniu do wielu modeli własnościowych, w tym Google'a Gemini 2.0 Flash i Bagel od ByteDance. FLUX.1 Kontext [dev] ustępuje jedynie własnym modelom Black Forest Labs oraz GPT-4o od OpenAI.
Dostępne są również hostowane API na @FAL, @replicate, @togethercompute.
Link poniżej do wag na HuggingFace 👐

24,57K
Najlepsze
Ranking
Ulubione
Trendy onchain
Trendy na X
Niedawne największe finansowanie
Najbardziej godne uwagi