Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Brian Zhan
Investering i AI i tidigt skede @CRV. Seed/A: @Reflection_AI, @SkildAI, @DynaRobotics, @LanceDB, Lepton (acq NVIDIA), @VoyageAI (acq MongoDB), @SDFLabs (acq dbt)
Om du redan bor inne i Claude Code kan du det uppenbara (terminal-native, tight loop, se det köras, grepploggar, patcha, köra om, commita). Så här är den mer intressanta frågan:
varför känns Codex som att den kommer ikapp utan att bara klona den interaktiva terminalagent-känslan?
Codex är delegeringsförst, inte parprogrammeringsförst.
Claude Codes superkraft är den tajta interaktiva kontrollloopen:
Du och agenten delar en enda cockpit. Det är sevärt. Du ingriper mitt i flygningen. Du styr innan den bränner tiden ner på en dålig väg. Det är i princip agent som en förlängning av ditt skal.
Codex satsning är annorlunda: agent som parallell kollega som arbetar vid sin egen dator
Den inramningen innebär en mängd produktkonsekvenser som är lätta att missa om man bara jämför modellresultat:
1) Asynkroni som funktion (inte en bieffekt)
Codex är designad för att du ska kunna lämna över en uppgift, göra något annat och sedan återvända till en repetitionsbar artefakt
Tyngdpunkten blir PR/differential. Det är därför man ser språk som "delegera", "överflödsmentalitet", "köa upp en massa uppgifter". Arbetsflödet är: spawna N jobb, sedan granska/slå ihop.
2) Isolering och sandboxing är inte bara infrastruktur, det är UX.
Varje uppgift som körs i sin egen isolerade miljö ändrar förtroendemodellen: Agenten kan köra tester, ändra filer, generera commits utan att kontaminera din lokala arbetsyta. Du får säkerhetsgränser (och ofta konservativa standarder) som gör det lättare att låta det bara göra som det är.
3) Sammanslagning är det faktiska målmåttet. Claude Code känns fantastisk eftersom loopen konvergerar. Medan Codex explicit optimerar för att komma tillbaka med något du kan slå ihop.
Så jämförelsens form blir tydligare:
Claude Code = bäst när uppgiften kräver bedömningar mitt i strömmen, snabba avbrott och mänsklig styrning. Det är "den trånga cockpitloopen".
Codex = bäst när uppgiften kan delegeras, parallelliseras och returneras som sammanfogningsbara artefakter. Det är "kollega med eget arbetsutrymme".
Den djupare gränsen är inte autokompletteringskvalitet.
Det är änd-till-änd-kontrollloopar med verifiering:
Kontext -> plan -> redigeringar -> genomförande -> verifiering -> granskabar artefakt
Och den verkliga vallgraven byggs vid verifiering och smak:
- Kör den rätt tester?
- tolkar den CI-fel korrekt?
- Ger det små skillnader som matchar ditt repos idiom?
- Returnerar den pålitligt något man kan slå ihop utan att passa barn?
Min gissning är att vi konvergerar mot ett hybridarbetsflöde:
interaktiv Claude Code-loop för tvetydigt arbete + sandboxade parallella Codex-jobb för genomströmning.
Vinnaren är den som bygger den bästa routern över dessa lägen och får delegering att kännas lika pålitlig som git-status.
181
Tinker från Thinking Machines som GA är en av de första lanseringarna på länge som faktiskt känns som träning som en produkt.
De flesta hostade finjusterings-API:er (inklusive OpenAI-stil) är fantastiska när allt du behöver är en ren SFT-genomgång, men så fort du vill göra något ens lite kryddigt: anpassade kursplaner, onlineutvärdering, belöningsformad efterträning, RL-liknande loopar, konstiga batching-/packningstrick: du når taket snabbt och bygger upp halva träningsstacken igen.
Tinker vänder i princip på det: det ger dig ett tränings-API med lågnivåprimitiva (exempel / forward_backward / optim_step / save_state), så du skriver den loop du faktiskt vill ha, och de tar hand om de delar som normalt blir en månads infrastrukturarbete (schemaläggning, skalning, preemptioner, felåterställning, varför dog det här jobbet vid 93%-grejerna).
Det är också LoRA-först, vilket är precis rätt standard för anpassning: du itererar snabbare, kostnaderna håller sig stabila, du kan behålla flera varianter utan att duplicera gigantiska checkpoints, och servering blir mycket mer praktiskt. Jag gillar också att berättelsen inte är handvadig: LoRA kan verkligen matcha full finjustering på många dataset efter träning när du sätter upp det rätt, men om du försöker trycka in en massiv beteendeförändring i en liten adapter (eller om din datamängd bara överskuggar adapterns effektiva kapacitet) kommer du att känna den flaskhalsen och den försvinner inte magiskt.
Den enda verkliga nackdelen jag ser är floor-flooren för små modeller: om ditt mål är små kant-SLM:er är det förmodligen inte verktyget. Ändå är jag taggad på det. Kan inte vänta på att se vad folk bygger.
728
Topp
Rankning
Favoriter

