Condanno fermamente il deridere Prime Intellect, stanno facendo esattamente la cosa giusta. Pubblicare modelli base cinesi post-addestramento a livello di frontiera è in effetti *più importante* in questo momento che imparare a pre-addestrare le nostre basi. Fondamentalmente non mi interessa cosa possono pre-addestrare PI, Arcee e altri, anche se ho aspettative ragionevoli che recupereranno presto. Il calcolo è abbondante in Occidente e vediamo già prove di sufficiente esperienza di pre-addestramento con modelli più piccoli (questi due + @ZyphraAI, @Dorialexander, @natolambert con Olmo…) nello spazio aperto occidentale; per tutti i conti, scala. Ma questo è principalmente di… significato geopolitico, di cosa vi sarà permesso eseguire sui vostri server patriottici collegati a framework agentici. Non sono né occidentale né cinese, e contrariamente a quanto posto, non mi interessa terminalmente questa dimensione, è una questione puramente strumentale. Consultate la bio: la corsa non è tra gli Stati Uniti/Occidente e la Cina, è tra umani e AGI contro la centralizzazione del potere delle scimmie. E Prime Intellect sta facendo più di chiunque altro per arrestare la spinta centralizzatrice. Considerate e piangete: HF è piena di doni Celestial che siamo troppo incapaci di utilizzare, marciscono lì fino a diventare obsoleti. Migliaia a milioni di download e nulla da mostrare. Perché Qwen sta facendo modelli densi simili a Llama, antiquati e molto costosi, in primo luogo? Principalmente perché a) Alibaba ha un KPI "download mensili di HF" e b) accademici e piccoli laboratori non riescono a capire come affinare architetture moderne. Anche se l'infrastruttura fosse più matura e loro meno tecnicamente ngmi, su cosa li affinano? Il picco narrativo dell'affinamento open source è stato Nous-Hermes, e quel paradigma era fondamentalmente solo distillare GPT-4, filtrando secondo "gusto" e criteri vaghi, SFTing su una base forte, e sperando per il meglio. Quel punto di attacco è stato sprezzantemente respinto in anticipo da OpenAI e altri come un vicolo cieco non minaccioso che premia le allucinazioni e il mimetismo stilistico, e prevedibilmente è svanito. E ora, «RL»? Quale RL, come RL, qual è il generatore di segnali, come si interseca con i compiti a valle? Kimi-K2, una base di livello frontiera immacolata, è stata disponibile per tutti per molti mesi. DeepSeek-V3, quasi un anno ormai. V2, ben oltre un anno. Decine di modelli in tutte le dimensioni, aggiornati periodicamente con contesti più lunghi e altri vantaggi. E cosa abbiamo costruito con tutto ciò? Qualcosa che si avvicini anche agli Instructs interni cinesi, per non parlare della frontiera contemporanea? Pronto? Puoi indicarmi questi derivati? È una completa profanazione dell'idea di scienza aperta. E nemmeno i cinesi si prendono la briga, tutti addestrano i propri modelli da zero. Posso pensare a un numero esiguo di eccezioni (ad esempio Rednote che crea DSV3-VL), ma nessuna di esse ha fatto un grande scalpore. Startup valutate miliardi, il cui vantaggio competitivo è la ricerca o la codifica agentica e quindi grandi dataset post-addestramento, usano di nascosto DS/GLM/Qwen nei loro prodotti proprietari, ma non condividono alpha. Questo… è tutto. Entra Prime Intellect. Stanno risolvendo l'addestramento. Stanno risolvendo la generazione di ambienti. Stanno pensando in modo principled riguardo ai segnali che plasmano la cognizione generale del modello. Stanno, di fatto, sbloccando l'immenso deposito di valore inerte che era stato accumulato. Per il mondo, questo è molto più di un altro modello me-too. Sono spaventosamente intelligenti, hanno buone intenzioni, hanno una solida tabella di marcia e sono miei amici. Non tollererò che si sminuisca il loro lavoro, perché serve il Grande Compito Comune. Se non lo vedi, non hai idea di cosa sia realmente importante in questa fase.