Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🤔 Baidu ERNIE 5.0 jest tutaj — jak naprawdę jest dobry?
Szeroko czytana recenzja od współpracownika Zhihu, toyama nao, oferuje jasne zestawienia.
Baidu pozostawało w tyle za OpenAI o 3-6 miesięcy z wydaniami dopasowanymi do wersji. Po GPT-5, ERNIE 5.0 pojawił się na czas — i w przeciwieństwie do pośpiesznego 4.5, w końcu wygląda jak solidny model krajowy pierwszej klasy.
Wydajność wzrosła o ~80% w porównaniu do X1.1, w przybliżeniu dorównując MiniMax M2. Dane treningowe wydają się być odbudowane: wyniki są znacznie czystsze i bardziej spójne (Rys. 1).
👇 Oto skrócone porównanie:
✅ Gdzie ERNIE 5.0 się poprawia
• Śledzenie instrukcji: Wysokie wyniki, a nawet szczyty w pierwszej klasie — ale z dziwnymi niskimi porażkami (np. niespójne formaty dat w różnych próbach).
• Podstawowe obliczenia: Wiarygodne dla matematyki na poziomie K12; bardziej stabilne niż X1.1, chociaż wciąż słabsze niż M2 w złożonych zadaniach.
• Znacznie czystsze wyniki: X1.1 cierpiało z powodu hałaśliwych danych destylowanych i niezgrabnych tłumaczeń. ERNIE 5.0 w dużej mierze to naprawia: jaśniejsze łańcuchy myślenia, czystsze ostateczne odpowiedzi, lepsza czytelność.
🙋 Gdzie wciąż ma problemy
• Wysoki wskaźnik halucynacji: Zbyt wiele pewnych, ale błędnych odpowiedzi na zadania związane z symbolami matematycznymi, mieszaniem znaków i długimi kontekstami — bliżej drugorzędnej wydajności rozumowania.
• Niska wnikliwość: Nie potrafi dostrzegać ukrytych wzorców (#46 wzór literowy, #32 rozumowanie kalendarzowe), często stosując siłę zamiast abstrakcji.
• Okazjonalne nieskończone pętle: Rzadkie (<3%), ale zaskakujące, biorąc pod uwagę, że zniknęły w ostatnich krajowych modelach.
• Słaba zdolność do wieloetapowego rozumowania: Często zapomina zasady lub poprzednie tury przed siódmą rundą; pętle wyzwalane łatwiej.
💬 Werdykt
Era chińskich modeli o bilionach parametrów ma zaledwie 3 miesiące, a Baidu już przeskoczyło do modelu 2T.
Jednak w porównaniu z Kimi K2 Thinking, ERNIE 5.0 wydaje się trochę "puchaty" — duży, zdolny, ale nie w pełni wykorzystujący swoją wagę.
Mimo to, może to być długo oczekiwany sygnał powrotu @Baidu_Inc — przypomnienie, że Baidu zamierza pozostać w wyścigu LLM.
📖 Pełna ocena:
🔗 Benchmark:
#ERNIE5 #Baidu #AI #LLM #ChinaAI

Najlepsze
Ranking
Ulubione

