Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Brian Zhan
Investiții în AI în stadii incipiente @CRV. Seed/A: @Reflection_AI, @SkildAI, @DynaRobotics, @LanceDB, Lepton (acq NVIDIA), @VoyageAI (acq MongoDB), @SDFLabs (acq dbt)
Dacă deja locuiești în Claude Code, știi lucrurile evidente (nativ terminal, cerc strâns, să-l urmărești rulând, grep logs, patch, rerule, commit). Așadar, iată întrebarea mai interesantă:
de ce pare că Codex recuperează fără să cloneze pur și simplu atmosfera de agent terminal interactiv?
Codexul este legat mai întâi, nu programare în pereche.
Superputerea lui Claude Code este bucla de control interactivă strânsă:
Tu și agentul împărțiți un singur cockpit. E de urmărit. Intervii în timpul zborului. Conduci înainte să ardă timpul pe o cale proastă. Practic, este agent ca o extensie a carcasei tale.
Pariul lui Codex este diferit: agentul ca un coleg paralel care lucrează pe propriul calculator
Această încadrare implică o mulțime de consecințe ale produsului care pot fi ratate dacă compari doar ieșirile modelelor:
1) Asincronia ca caracteristică (nu ca efect secundar)
Codex este conceput pentru ca tu să predai o sarcină, să faci altceva și să revii la un artefact ce poate fi revizuit
Centrul de greutate devine PRs/diff. De aceea vezi termeni precum "delegă", "mentalitate de abundență", "pune la coadă o grămadă de sarcini". Fluxul de lucru este: generează N joburi, apoi revizuiește/fuzionează.
2) Izolarea și sandboxing-ul nu sunt doar infrastructură, ci UX.
Fiecare sarcină care rulează în propriul mediu izolat schimbă modelul de încredere: agentul poate rula teste, modifica fișiere, genera commit-uri fără a contamina spațiul tău local de lucru. Ai limite de siguranță (și adesea implicite conservatoare) care fac mai ușor să lași lucrurile să facă lucrurile pur și simplu.
3) Fuziabilitatea este metrica țintă reală. Claude Code se simte grozav pentru că bucla converge. În timp ce Codex optimizează explicit pentru a reveni cu ceva ce poți fuziona.
Astfel, forma comparației devine mai clară:
Claude Code = cel mai bun când sarcina necesită decizii de judecată la mijloc, întreruperi rapide și direcție umană. Este "bucla strâmtă a cockpitului".
Codex = cel mai bun atunci când sarcina poate fi delegată, paralelizată și returnată ca artefacte care pot fi fuzionate. Este "coleg cu propriul său spațiu de lucru".
Frontiera mai profundă nu este calitatea autocompletării.
Sunt bucle de control end-to-end cu verificare:
Context -Plan > -> Editări -Execuția > -Verificarea > -> artefact revizuibil
Și adevăratul șanț se construiește la verificare și gust:
- Rulează testele corecte?
- interpretează corect eșecurile CI?
- Produce diferențe mici care se potrivesc cu expresiile repo-ului tău?
- returnează în mod fiabil ceva ce poți fuziona fără să ai grijă de copil?
Bănuiala mea este că vom converge către un flux de lucru hibrid:
buclă interactive Claude Code pentru lucrări ambigue + joburi Codex paralele sandboxate pentru throughput.
Câștigătorul este cel care construiește cel mai bun router în acele moduri și face delegarea să pară la fel de fiabilă ca statusul git.
172
Tinker de la Thinking Machines fiind GA este una dintre primele lansări de ceva vreme care chiar se simte ca un antrenament ca produs.
Majoritatea API-urilor fine-tune găzduite (inclusiv în stil OpenAI) sunt grozave când tot ce ai nevoie este o rundă SFT curată, dar în momentul în care vrei să faci ceva măcar puțin picant: curriculum personalizat, evaluare online, post-training în formă de recompensă, cicluri asemănătoare cu RL, trucuri ciudate de loting/packing: ajungi rapid la plafon și ajungi să reconstruiești jumătate dintr-un stack de antrenament.
Tinker practic inversează asta: îți oferă un API de antrenament cu primitive de nivel scăzut (sample / forward_backward / optim_step / save_state), astfel încât scrii bucla pe care chiar o dorești, iar ei se ocupă de părțile care de obicei se transformă într-o lună de muncă infrastructurală (programare, scalare, preemțiuni, recuperare în caz de defecte, de ce a murit acest job la 93%).
Este și LoRA-first, ceea ce este exact implicit implicit pentru personalizare: iterezi mai repede, costurile rămân sănătoase, poți păstra mai multe variante fără să duplici puncte uriașe de control, iar serviciul devine mult mai practic. Îmi place și faptul că povestea nu e vagă: LoRA chiar poate face față ajustării fine complete pe multe seturi de date post-antrenament atunci când îl configurezi corect, dar dacă încerci să înghesui o schimbare masivă de comportament într-un adaptor mic (sau setul tău de date depășește cu mult capacitatea efectivă a adaptorului), vei simți acel blocaj și nu va dispărea magic.
Singurul dezavantaj real pe care îl văd este podea pentru modele mici: dacă scopul tău sunt SLM-uri cu margini mici, probabil că acesta nu este instrumentul potrivit. Totuși, sunt entuziasmat de asta. Abia aștept să văd ce construiesc oamenii.
718
Limită superioară
Clasament
Favorite

