Sklep DApp | Centrum Web3 dla wydarzeń i gier

Popularne tematy

Ten wykres cicho pokazuje nowy plan działania dla firm zajmujących się kodowaniem AI, a nikt o tym nie mówi. Cognition i Cursor zaczęły jako nakładki działające na Claude i GPT. Teraz spójrz na ten benchmark. SWE-1.6 Cognition na poziomie 51,7%. Composer-1.5 Cursor na poziomie 50,8%. Oba znajdują się w zasięgu Claude Opus 4.6 na poziomie 53,6% i GPT-5.3-Codex na poziomie 56,8%. Żadna z firm nie trenowała modelu bazowego od zera. Obie wzięły otwarte modele bazowe i zastosowały uczenie przez wzmocnienie w rzeczywistych środowiskach kodowania. Swyx z Cognition powiedział to bezpośrednio na Hacker News: „coraz mniej ważne są cechy modelu bazowego, o ile jest wystarczająco dobry, ponieważ wtedy RL i post-trening przejmują kontrolę i są całym punktem różnicującym.” To jest teza. Model bazowy to towar. Pipeline RL trenowany na twoim specyficznym agencie, wzorcach użycia narzędzi, rzeczywistych sesjach użytkowników to warstwa obronna. Cognition trenowało SWE-1.6 na swoim systemie Cascade z dwoma rzędami wielkości większym obliczeniowym RL niż SWE-1.5. Cursor trenowało Composer w żywych środowiskach IDE z edytowaniem plików, wyszukiwaniem semantycznym i poleceniami terminala. Obie firmy współprojektowały model i produkt razem. Matematyka skoku opowiada historię. SWE-1.5 uzyskało 40,1%. SWE-1.6 uzyskuje 51,7%. Ten sam model bazowy. Te same 950 tok/s wnioskowania na Cerebras. Cała poprawa o 11,6 punktu wynikała z lepszych przepisów RL i większej mocy obliczeniowej. To szybszy wskaźnik poprawy niż większość laboratoriów bazowych uzyskuje z skalowania wstępnego treningu. To są dwie firmy o wartości ponad 10 miliardów dolarów (Cognition o wartości 10,2 miliarda dolarów, Cursor o wartości 29,3 miliarda dolarów), które niezależnie dochodzą do tego samego wniosku: nie musisz budować GPT-5, aby konkurować z GPT-5 w kodowaniu. Potrzebujesz RL w skali na dobrym modelu bazowym, współprojektowanym z infrastrukturą twojego agenta. Warstwa prędkości też ma znaczenie. Cognition działa z prędkością 950 tok/s przez Cerebras. Composer działa z prędkością 250 tok/s. W agentowych przepływach pracy, gdzie model wykonuje dziesiątki iteracji na zadanie, ta różnica 4x kumuluje się w znacząco różne doświadczenia użytkowników. Cognition stawia na to, że prędkość plus dokładność przewyższa samą dokładność. Pytanie, które powinno niepokoić OpenAI i Anthropic: jeśli dwie startupy mogą zbliżyć się do 5 punktów od twoich najlepszych modeli, używając RL na otwartych bazach, co się stanie, gdy otwarte bazy staną się lepsze? Każda poprawa Llama lub Qwen wpływa bezpośrednio na pipeline Cognition i Cursor. Laboratoria bazowe w zasadzie subsydiują swoją własną konkurencję.

Najlepsze

Ranking

Ulubione