DApp Store | Centrum Web3 pro události a hry

Populární témata

Silně odsuzuji dunkování na Prime Intellect, dělají přesně to správně. Post-trénování čínských základen na úroveň hranic je teď *důležitější* než naučit se předtrénovat vlastní základny. V podstatě mi je jedno, co vedoucí, Arcee a další mohou předškolit, i když mám rozumné očekávání, že brzy doženou. Výpočetní technika je na Západě hojná a již vidíme důkazy o dostatečné předtrénovací expertíze u menších modelů (tyto dva + @ZyphraAI, @Dorialexander, @natolambert s Olmem...) v západním otevřeném prostoru; Podle všeho se škáluje. Ale to je hlavně... geopolitický význam, co vám bude umožněno spouštět na vašich patriotických serverech zapojených do agentických frameworků. Nejsem Západní ani Číňan, a na rozdíl od mého příspěvku mi na této dimenzi nezáleží naprosto jako na ničem, je to čistě instrumentální záležitost. Podívejte se na bio: závod není mezi USA/Západem a Čínou, ale mezi lidmi a AGI versus centralizací moci opic. A Prime Intellect dělá víc než kdokoli jiný pro zastavení centralizačního pohonu. Zvažte a plačte: HF je plné nebeských darů, které jsme příliš neschopní využít, jen tam hnijí, dokud se nestanou zastaralými. Tisíce až miliony stažení a nic k ukázání. Proč Qwen vůbec dělá zastaralé, velmi drahé modely podobné Llama, husté? Hlavně proto, že a) Alibaba má KPI "měsíční stahování HF" a b) akademici a malé laboratoře nedokážou moderní architektury doladit. I kdyby byla infrastruktura vyspělejší a technicky méně ngmi, na čem ji ladí? Narativní vrchol open source fine-ladění byl Nous-Hermes, a tento paradigmat spočíval v podstatě jen destilaci GPT-4, filtrování podle "chuti" a vágních kritérií, SFT na silném základu a doufání v nejlepší. Tento úhel útoku byl OpenAI a spol. předem pohrdavě odmítnut jako nehrozivá slepá ulička, která odměňuje halucinace a napodobování stylu, a předvídatelně vyprchal. Co dál, «RL»? Jaký RL, jak RL, co je generátor signálu, jak se protíná s úkoly za vámi? Kimi-K2, dokonalá základna na úrovni hranice, je dostupná všem už mnoho měsíců. DeepSeek-V3, už skoro rok. V2, už přes rok. Desítky modelů všech velikostí, pravidelně aktualizované o delší kontext a další výhody. A co jsme tím vším vybudovali? Je něco, co se alespoň blíží čínským interním instrukcím, natož současným hranicím? Dobrý den? Můžete mi ukázat tyto deriváty? Je to úplné znesvěcení myšlenky otevřené vědy. A ani Číňané se o to nestarají, všichni si sami trénují modely od nuly. Napadá mě pár výjimek (například Rednote vytvořil DSV3-VL), ale žádná z nich neudělala velký rozruch. Startupy v hodnotě miliard, jejichž hlavní doménou je vyhledávání nebo agentické kódování a tedy velké datové sady po trénování, nenápadně používají DS/GLM/Qwen ve svých proprietárních produktech, ale nesdílejí alfa model. To je... O tom. Přichází Prime Intellect. Řeší výcvik. Řeší generování prostředí. Myslí principielně o signálech, které formují obecné modelové poznání. Ve skutečnosti odemykají obrovský zásobník inertní hodnoty, který se nashromáždil. Pro svět je to mnohem víc než jen další model "já taky". Jsou děsivě chytří, mají dobré úmysly, mají pevnou mapu a jsou to moji přátelé. Nebudu tolerovat shazování jejich práce, protože slouží Velkému společnému úkolu. Pokud to nevidíte, nemáte tušení, co je v této fázi opravdu důležité.

Top

Hodnocení

Oblíbené