DApp Store | Centrum Web3 pro události a hry

Populární témata

Tento graf vám tiše ukazuje nový scénář pro firmy zabývající se AI programováním a nikdo o tom nemluví. Kognice i kurzor začaly jako obaly běžící na Claudovi a GPT. Teď se podívejte na tento benchmark. Kognice má SWE-1,6 na úrovni 51,7 %. Kurzor Composer-1.5 na 50,8 %. Oba jsou v dosahu Claude Opus 4.6 s 53,6 % a GPT-5.3-Codex s 56,8 %. Ani jedna společnost netrénovala základní model od nuly. Oba využívaly open-source základní modely a aplikovaly posilované učení v reálných programátorských prostředích. Swyx z Cognition to řekl přímo na Hacker News: "Je čím dál méně důležité vlastnosti základního modelu, pokud je dostatečně dobrý, protože pak přebírá RL a post-trénink a je to celý smysl diferenciace." To je teze. Základní model je komodita. RL pipeline trénovaný na vašem konkrétním agentovém harnessu, vzorcích používání nástrojů, skutečných uživatelských relacích je obranná vrstva. Kognice trénovala SWE-1.6 na svém Cascade svazku s dvěma řády větším RL výpočetním výkonem než SWE-1.5. Editora trénoval kurzorem v živých prostředí IDE s úpravou souborů, sémantickým vyhledáváním a terminálovými příkazy. Oba společně navrhli model i produkt. Matematika na skoku vypráví příběh. SWE-1.5 získal 40,1 %. SWE-1.6 dosahuje 51,7 %. Stejný základní model. Stejný tok za sekundu na Cerebras je stejný 950 tok/s odhad. Celé zlepšení o 11,6 bodu přišlo díky lepším RL receptům a většímu výpočetnímu výkonu. To je rychlejší tempo zlepšení, než jaké většina základních laboratoří dosahuje předtréninkovým škálováním. Jde o dvě společnosti s hodnotou 10 miliard dolarů (Cognition za 10,2 miliardy, Kurzor za 29,3 miliardy), které nezávisle docházejí ke stejnému závěru: není třeba stavět GPT-5, abyste mohli konkurovat GPT-5 v programování. Potřebujete RL ve velkém měřítku na dostatečně dobré základně, spolunavržené s vaší agentní infrastrukturou. Důležitá je i rychlostní vrstva. Kognice běží rychlostí 950 tok/s přes cerebras. Composer běží rychlostí 250 tok/s. V agentických pracovních postupech, kde se model opakuje desítkykrát za úkol, se tento čtyřnásobný rozdíl v rychlosti shromadzuje do výrazně odlišných uživatelských zážitků. Kognice je sázení na rychlost plus přesnost je lepší než samotná přesnost. Otázka, která by měla znepokojovat OpenAI a Anthropic, je: pokud se dva startupy dokážou dostat na 5 bodů k vašim nejlepším modelům pomocí RL na open-source bázach, co se stane, když se open-source základny zlepší? Každé vylepšení Llamy nebo Qwen přímo plyne do pipeline Cognition a Cursoru. Základní laboratoře v podstatě financují svou vlastní konkurenci.

Top

Hodnocení

Oblíbené