Ich verurteile es entschieden, Prime Intellect zu kritisieren, sie tun genau das Richtige. Chinesische Basis-Modelle auf das Grenzniveau zu bringen, ist derzeit *wichtiger* als zu lernen, wie man unsere eigenen Basen vortrainiert. Es ist mir im Grunde egal, was PI, Arcee und andere vortrainieren können, obwohl ich vernünftige Erwartungen habe, dass sie bald aufholen werden. Rechenleistung ist im Westen reichlich vorhanden und wir sehen bereits Beweise für ausreichende Vortrainingsexpertise mit kleineren Modellen (diese beiden + @ZyphraAI, @Dorialexander, @natolambert mit Olmo…) im westlichen offenen Raum; nach allem, was man hört, skaliert es. Aber das hat hauptsächlich… geopolitische Bedeutung, was ihr auf euren patriotischen Servern, die in agentische Rahmen eingebunden sind, ausführen dürft. Ich bin weder westlich noch chinesisch, und entgegen meiner Beiträge ist mir diese Dimension nicht wichtig, es ist ein rein instrumentelles Thema. Konsultiert die Biografie: Das Rennen ist nicht zwischen den USA/Westen und China, es ist zwischen Menschen und AGIs gegen die Zentralisierung der Affenmacht. Und Prime Intellect tut mehr als jeder andere, um den zentralisierenden Antrieb zu stoppen. Überlegt und weint: HF ist voll von Celestial-Geschenken, die wir zu unfähig sind zu nutzen, sie verrotten einfach dort, bis sie obsolet werden. Tausende bis Millionen von Downloads und nichts zu zeigen. Warum macht Qwen überhaupt antiquierte, sehr teure Llama-ähnliche dichte Modelle? Hauptsächlich weil a) Alibaba einen KPI "monatliche HF-Downloads" hat und b) Akademiker und kleine Labore nicht herausfinden können, wie man moderne Architekturen feinjustiert. Selbst wenn die Infrastruktur reifer wäre und sie weniger technisch ngmi, worauf würden sie es feinjustieren? Der narrative Höhepunkt des Open-Source-Fine-Tunings war Nous-Hermes, und dieses Paradigma bestand im Grunde nur darin, GPT-4 zu destillieren, nach "Geschmack" und vagen Kriterien zu filtern, SFT über einer starken Basis zu machen und auf das Beste zu hoffen. Dieser Angriffswinkel wurde im Voraus von OpenAI und anderen als nicht bedrohliches Ende abgelehnt, das Halluzinationen und Stilnachahmung belohnt, und es ist vorhersehbar ausgebrannt. Was kommt als Nächstes, «RL»? Welches RL, wie RL, was ist der Signalgeber, wie schneidet es sich mit nachgelagerten Aufgaben? Kimi-K2, eine makellose Basis auf Grenzniveau, ist seit vielen Monaten für alle verfügbar. DeepSeek-V3, fast ein Jahr jetzt. V2, weit über ein Jahr. Dutzende von Modellen in allen Größen, regelmäßig aktualisiert mit längerem Kontext und anderen Vorteilen. Und was haben wir mit all dem gebaut? Etwas, das auch nur annähernd den chinesischen Inhouse-Instruktionen entspricht, geschweige denn zeitgenössischen Grenzwerten? Hallo? Kannst du mich auf diese Derivate hinweisen? Es ist eine vollständige Profanierung der Idee der offenen Wissenschaft. Und nicht einmal die Chinesen kümmern sich darum, sie trainieren alle ihre eigenen Modelle von Grund auf. Ich kann an einer Hand eine kleine Anzahl von Ausnahmen nennen (z. B. Rednote, die DSV3-VL erstellen), aber keine von ihnen hat einen großen Eindruck hinterlassen. Startups, die Milliarden wert sind, deren Schutzschild Suche oder agentisches Codieren ist und somit große Post-Training-Datensätze, verwenden heimlich DS/GLM/Qwen in ihren proprietären Produkten, aber sie teilen kein Alpha. Das… ist alles. Betreten Sie Prime Intellect. Sie lösen das Training. Sie lösen die Umgebungs-Generierung. Sie denken auf eine prinzipielle Weise über Signale nach, die die allgemeine Modellkognition formen. Sie schalten im Wesentlichen den immensen Vorrat an inerten Werten frei, der angesammelt wurde. Für die Welt ist das so viel mehr als nur ein weiteres Me-Too-Modell. Sie sind beängstigend klug, sie haben gute Absichten, sie haben einen soliden Fahrplan, und sie sind meine Freunde. Ich werde es nicht hinnehmen, ihre Arbeit zu schmähen, denn sie dient der Großen Gemeinsamen Aufgabe. Wenn du es nicht siehst, hast du keinen Schimmer, was in dieser Phase wirklich wichtig ist.