Dieses Diagramm zeigt Ihnen stillschweigend das neue Handbuch für KI-Coding-Unternehmen, und niemand spricht darüber. Cognition und Cursor begannen beide als Wrapper, die auf Claude und GPT liefen. Schauen Sie sich jetzt diesen Benchmark an. Cognition’s SWE-1.6 bei 51,7 %. Cursor’s Composer-1.5 bei 50,8 %. Beide liegen in Reichweite von Claude Opus 4.6 bei 53,6 % und GPT-5.3-Codex bei 56,8 %. Keines der beiden Unternehmen hat ein Grundmodell von Grund auf trainiert. Beide verwendeten Open-Source-Basismodelle und wendeten Reinforcement Learning in realen Programmierumgebungen an. Cognition’s Swyx sagte es direkt auf Hacker News: „Es ist zunehmend weniger wichtig, welche Qualitäten das Basismodell hat, solange es gut genug ist, denn dann übernimmt das RL und das Nachtraining und ist der gesamte Differenzierungsfaktor.“ Das ist die These. Das Basismodell ist eine Ware. Die RL-Pipeline, die auf Ihrem spezifischen Agenten-Harness, Ihren Werkzeugnutzungsmustern und Ihren realen Benutzersitzungen trainiert wurde, ist die verteidigbare Schicht. Cognition trainierte SWE-1.6 auf ihrem Cascade-Harness mit zwei Größenordnungen mehr RL-Compute als SWE-1.5. Cursor trainierte Composer in Live-IDE-Umgebungen mit Datei-Bearbeitung, semantischer Suche und Terminalbefehlen. Beide entwarfen das Modell und das Produkt gemeinsam. Die Mathematik des Sprungs erzählt die Geschichte. SWE-1.5 erzielte 40,1 %. SWE-1.6 erzielt 51,7 %. Dasselbe Basismodell. Dieselbe 950 tok/s Inferenz auf Cerebras. Die gesamte Verbesserung von 11,6 Punkten kam von besseren RL-Rezepten und mehr Compute. Das ist eine schnellere Verbesserung als die meisten Grundlabore durch Pre-Training-Skalierung erzielen. Das sind zwei Unternehmen mit über 10 Milliarden Dollar (Cognition mit 10,2 Milliarden Dollar, Cursor mit 29,3 Milliarden Dollar), die unabhängig zu derselben Schlussfolgerung kommen: Sie müssen GPT-5 nicht bauen, um mit GPT-5 im Programmieren zu konkurrieren. Sie benötigen RL in großem Maßstab auf einem gut genug Basismodell, das gemeinsam mit Ihrer Agenteninfrastruktur entworfen wurde. Die Geschwindigkeitsschicht ist ebenfalls wichtig. Cognition läuft mit 950 tok/s durch Cerebras. Composer läuft mit 250 tok/s. In agentischen Workflows, in denen das Modell dutzende Male pro Aufgabe durchläuft, summiert sich dieser 4-fache Geschwindigkeitsunterschied zu bedeutend unterschiedlichen Benutzererfahrungen. Cognition setzt darauf, dass Geschwindigkeit plus Genauigkeit besser ist als nur Genauigkeit. Die Frage, die OpenAI und Anthropic beunruhigen sollte: Wenn zwei Startups innerhalb von 5 Punkten Ihrer besten Modelle mit RL auf Open-Source-Basen kommen können, was passiert, wenn die Open-Source-Basen besser werden? Jede Verbesserung von Llama oder Qwen fließt direkt in die Pipeline von Cognition und Cursor. Die Grundlabore subventionieren im Wesentlichen ihre eigene Konkurrenz.