Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Brian Zhan
Investice do rané fáze AI @CRV. Seed/A: @Reflection_AI, @SkildAI, @DynaRobotics, @LanceDB, Lepton (acq NVIDIA), @VoyageAI (acq MongoDB), @SDFLabs (acq dbt)
Pokud už žijete uvnitř Claude Code, znáte ty nejzjevnější věci (terminál-nativní, úzká smyčka, sledujte běh, grep logy, patch, rerun, commit). Takže tady je zajímavější otázka:
proč má Codex pocit, že dohání, aniž by jen kopíroval atmosféru interaktivního terminálového agenta?
Codex je nejprve delegace, ne párové programování.
Superschopností Claude Code je úzká interaktivní ovládací smyčka:
Ty a agent sdílíte jeden kokpit. Dá se na něj koukat. Zasáhnete uprostřed letu. Řídíte se dřív, než to spálí čas špatnou cestou. Je to v podstatě agent jako prodloužení vašeho shellu.
Codex má jinou sázku: agent jako paralelní kolega, který pracuje na vlastním počítači
Tento rámec znamená řadu důsledků produktu, které je snadné přehlédnout, pokud porovnáváte pouze výstupy modelu:
1) Asynchronie jako vlastnost (nikoli vedlejší efekt)
Kodex je navržen tak, abyste předali úkol, šli dělat něco jiného a pak se vrátili k artefaktu k recenzi
Těžiště se stává PR/diff. Proto se používají výrazy jako "delegovat", "myšlení hojnosti", "připravit spoustu úkolů". Pracovní postup je: vytvořit N pracovních míst, pak zkontrolovat/sloučit.
2) Izolace a sandboxování nejsou jen infrastruktura, je to uživatelské zkušenosti.
Každá úloha běžící ve svém izolovaném prostředí mění model důvěry: agent může provádět testy, upravovat soubory, generovat commity, aniž by kontaminoval váš lokální pracovní prostor. Existují bezpečnostní hranice (a často i konzervativní výchozí nastavení), které usnadňují nechat to prostě dělat.
3) Slučovatelnost je skutečným cílovým ukazatelem. Claude Code je skvělý, protože se smyčka konverguje. Zatímco Codex explicitně optimalizuje pro návrat s něčím, co lze sloučit.
Takže podoba srovnání je jasnější:
Claudeův kód = nejlepší, když úkol vyžaduje hodnocení uprostřed proudu, rychlé přerušení a lidské řízení. Je to "těsná smyčka kokpitu".
Codex = nejlepší, když lze úkol delegovat, paralelizovat a vracet jako sloučitelné artefakty. Je to "kolega s vlastním pracovním místem".
Hlubší hranice není kvalita automatického doplňování.
Jsou to end-to-end řídicí smyčky s ověřením:
Kontext -> plán -> úpravy -> provádění -> ověřování -> přehledný artefakt
A skutečný příkop se staví na ověření a chuti:
- Provádí správné testy?
- správně interpretuje selhání CI?
- Produkuje malé rozdíly, které odpovídají idiomu vašeho repozitáře?
- Vrací spolehlivě něco, co můžeš sloučit bez hlídání?
Můj odhad je, že se přiblížíme k hybridnímu workflow:
interaktivní Claude Code smyčka pro nejednoznačné práce + sandboxované paralelní kodexové úlohy pro propustnost.
Vítězem je ten, kdo postaví nejlepší router napříč těmito režimy a udělá delegaci stejně spolehlivou jako git status.
177
Tinker z Thinking Machines jako GA je jedním z prvních uvedení na trh po dlouhé době, které skutečně působí jako trénink produktu.
Většina hostovaných fine-doladěných API (včetně OpenAI) je skvělá, když potřebujete jen čistý SFT běh, ale jakmile chcete dělat něco i trochu pikantního: vlastní osnovy, online hodnocení, odměny po tréninku, RL-podobné smyčky, podivné triky s dávkováním/balením: rychle narazíte na strop a nakonec znovu sestavíte polovinu tréninkového stacku.
Tinker to v podstatě obrací: dá vám tréninkové API s nízkoúrovňovými primitivy (sample / forward_backward / optim_step / save_state), takže napíšete smyčku, kterou skutečně chcete, a oni se postarají o části, které se obvykle promění v měsíc infrastruktury (plánování, škálování, preemptions, obnova po selhání, proč tato práce zemřela na 93 %).
Je to také LoRA první, což je přesně ten správný výchozí bod pro přizpůsobení: iterujete rychleji, náklady zůstávají rozumné, můžete mít více variant bez duplikování obřích checkpointů a servírování je mnohem praktičtější. Líbí se mi také, že příběh není zmatený: LoRA opravdu dokáže plně doladit spoustu datových sad po tréninku, když ji správně nastavíte, ale pokud se snažíte nacpat obrovskou změnu chování do malého adaptéru (nebo vaše datasada prostě převyšuje efektivní kapacitu adaptéru), pocítíte to úzké hrdlo a nezmizí zázračně.
Jedinou skutečnou nevýhodou, kterou vidím, je podlaha malého modelu: pokud chcete malé okrajové SLM, pravděpodobně to není ten správný nástroj. Přesto jsem z toho nadšený. Nemůžu se dočkat, co lidé postaví.
724
Top
Hodnocení
Oblíbené

