Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Zdecydowanie potępiam krytykę Prime Intellect, robią dokładnie to, co należy.
Publikowanie chińskich modeli bazowych po treningu na poziomie frontier jest w rzeczywistości *ważniejsze* teraz niż uczenie się, jak pretrenować nasze własne bazy. W zasadzie nie obchodzi mnie, co PI, Arcee i inni mogą pretrenować, chociaż mam rozsądne oczekiwania, że wkrótce dogonią. Obliczenia są obfite na Zachodzie i już widzimy dowody na wystarczającą ekspertyzę w pretrenowaniu mniejszych modeli (ci dwaj + @ZyphraAI, @Dorialexander, @natolambert z Olmo…) w zachodniej przestrzeni otwartej; według wszelkich relacji to się skaluje. Ale to głównie ma… znaczenie geopolityczne, co będziecie mogli uruchomić na swoich patriotycznych serwerach podłączonych do agentowych ram. Nie jestem ani zachodni, ani chiński, i wbrew moim postom, nie obchodzi mnie to wymiarowo, to czysto instrumentalna kwestia. Zobaczcie biografię: wyścig nie toczy się między USA/Zachodem a Chinami, to wyścig między ludźmi i AGI a centralizacją władzy małp. A Prime Intellect robi więcej niż ktokolwiek inny, aby zatrzymać centralizujący napęd.
Rozważcie i zapłaczcie: HF jest pełne Celestial darów, których jesteśmy zbyt nieudolni, aby wykorzystać, po prostu gniją tam, aż staną się przestarzałe. Tysiące do milionów pobrań i nic do pokazania. Dlaczego Qwen w ogóle robi przestarzałe, bardzo drogie modele gęste podobne do Llama? Głównie dlatego, że a) Alibaba ma KPI "miesięczne pobrania HF" i b) akademicy oraz małe laboratoria nie potrafią wymyślić, jak dostosować nowoczesne architektury. Nawet gdyby infrastruktura była bardziej dojrzała, a oni mniej technicznie ngmi, na czym by to dostosowywali? Szczyt narracji otwartego źródła dostosowywania był Nous-Hermes, a ten paradygmat w zasadzie polegał na destylacji GPT-4, filtrowaniu według "smaku" i niejasnych kryteriów, SFT na silnej bazie i nadziei na najlepsze. Ten kąt ataku został z pogardą odrzucony z góry przez OpenAI i innych jako niegroźny ślepy zaułek, który nagradza halucynacje i naśladowanie stylu, i przewidywalnie zgasł. Co dalej, «RL»? Jakie RL, jak RL, co jest generatorem sygnału, jak to się krzyżuje z zadaniami downstream? Kimi-K2, nieskazitelna baza na poziomie frontier, była dostępna dla wszystkich przez wiele miesięcy. DeepSeek-V3, prawie rok. V2, znacznie ponad rok. Dziesiątki modeli w różnych rozmiarach, okresowo aktualizowane z dłuższym kontekstem i innymi korzyściami. A co zbudowaliśmy z tym wszystkim?
Cokolwiek, co nawet zbliża się do chińskich instrukcji wewnętrznych, nie mówiąc już o współczesnych frontier? Halo? Możesz mnie wskazać na te pochodne? To całkowite profanowanie idei otwartej nauki. A nawet Chińczycy się tym nie przejmują, wszyscy po prostu trenują swoje własne modele od zera. Mogę pomyśleć o niewielkiej liczbie wyjątków (np. Rednote robiący DSV3-VL), ale żaden z nich nie zrobił wielkiego zamieszania. Startupy warte miliardy, których przewaga to wyszukiwanie lub agentowe kodowanie, a więc duże zbiory danych po treningu, potajemnie używają DS/GLM/Qwen w swoich produktach, ale nie dzielą się alfabetycznymi danymi. To… mniej więcej wszystko.
Wchodzi Prime Intellect. Rozwiązują trening. Rozwiązują generację środowiska. Myślą w sposób zasadniczy o sygnałach, które kształtują ogólną kognicję modelu. W rzeczywistości odblokowują ogromny zbiór inercyjnej wartości, która została zgromadzona. Dla świata to znacznie więcej niż kolejny model "me-too". Są przerażająco inteligentni, mają dobre intencje, mają solidny plan działania i są moimi przyjaciółmi. Nie pozwolę na lekceważenie ich pracy, ponieważ służy Wielkiemu Wspólnemu Zadaniu. Jeśli tego nie widzisz, nie masz pojęcia, co naprawdę jest ważne na tym etapie.
Najlepsze
Ranking
Ulubione

