Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Brian Zhan
Inwestowanie w @CRV na wczesnym etapie AI. Seed/A: @Reflection_AI, @SkildAI, @DynaRobotics, @LanceDB, Lepton (acq NVIDIA), @VoyageAI (acq MongoDB), @SDFLabs (acq dbt)
Jeśli już żyjesz w Claude Code, znasz oczywiste rzeczy (terminal-native, tight loop, watch it run, grep logs, patch, rerun, commit). Więc oto bardziej interesujące pytanie:
dlaczego Codex wydaje się doganiać, nie klonując po prostu interaktywnej atmosfery terminala?
Codex jest pierwszeństwem delegacji, a nie pierwszeństwem programowania w parach.
Supermoc Claude Code to ścisła interaktywna pętla kontrolna:
tu i agent dzielicie jedną kokpit. To jest do obserwacji. Interweniujesz w trakcie lotu. Kierujesz, zanim straci czas na złą ścieżkę. To w zasadzie agent jako rozszerzenie twojego powłoki.
Zakład Codexu jest inny: agent jako równoległy współpracownik, który pracuje na swoim własnym komputerze.
To ujęcie implikuje szereg konsekwencji produktowych, które łatwo przeoczyć, jeśli porównujesz tylko wyniki modeli:
1) Asynchronia jako cecha (a nie efekt uboczny)
Codex jest zaprojektowany tak, abyś mógł przekazać zadanie, zająć się czymś innym i wrócić do przeglądu artefaktu.
Centrum grawitacji staje się PR-y/diff. Dlatego widzisz język taki jak „delegować”, „mentalność obfitości”, „kolejkować wiele zadań”. Przepływ pracy to: uruchom N zadań, a następnie przegląd/połączenie.
2) Izolacja i sandboxing to nie tylko infrastruktura, to UX.
Każde zadanie działające w swoim własnym izolowanym środowisku zmienia model zaufania: Agent może uruchamiać testy, modyfikować pliki, generować commity bez zanieczyszczania twojego lokalnego obszaru roboczego. Otrzymujesz granice bezpieczeństwa (i często konserwatywne domyślne ustawienia), które ułatwiają mu po prostu to zrobić.
3) Mergeability to rzeczywisty docelowy wskaźnik. Claude Code działa świetnie, ponieważ pętla się zbiega. Podczas gdy Codex wyraźnie optymalizuje, aby wrócił z czymś, co możesz połączyć.
Kształt porównania staje się jaśniejszy:
Claude Code = najlepszy, gdy zadanie wymaga ocen w trakcie, szybkich przerwań i ludzkiego kierowania. To „ścisła pętla kokpitu”.
Codex = najlepszy, gdy zadanie można delegować, równolegle przetwarzać i zwracać jako artefakty do połączenia. To „współpracownik z własnym obszarem roboczym”.
Głębsza granica to nie jakość autouzupełniania.
To pętle kontrolne end-to-end z weryfikacją:
kontext -> plan -> edycje -> wykonanie -> weryfikacja -> artefakt do przeglądu
A prawdziwy fosa buduje się przy weryfikacji i smaku:
- czy uruchamia odpowiednie testy?
- czy poprawnie interpretuje błędy CI?
- czy produkuje małe różnice, które pasują do idiomów twojego repozytorium?
- czy niezawodnie zwraca coś, co możesz połączyć bez opieki?
Moim zdaniem zbiegnie się do hybrydowego przepływu pracy:
interaktywna pętla Claude Code dla niejednoznacznej pracy + sandboxowane równoległe zadania Codex dla wydajności.
Zwycięzcą jest ten, kto zbuduje najlepszy router w tych trybach i sprawi, że delegacja będzie tak niezawodna jak git status.
228
Tinker od Thinking Machines, będący w GA, to jedno z pierwszych uruchomień od dłuższego czasu, które naprawdę wydaje się być treningiem jako produktem.
Większość hostowanych API do fine-tuningu (w tym OpenAI) jest świetna, gdy potrzebujesz tylko czystego uruchomienia SFT, ale w momencie, gdy chcesz zrobić cokolwiek nawet nieco bardziej skomplikowanego: niestandardowe programy nauczania, oceny online, nagradzanie po treningu, pętle przypominające RL, dziwne sztuczki z pakowaniem: szybko uderzasz w sufit i kończysz na odbudowywaniu połowy stosu treningowego.
Tinker zasadniczo to zmienia: daje ci API do treningu z niskopoziomowymi prymitywami (sample / forward_backward / optim_step / save_state), więc piszesz pętlę, której naprawdę chcesz, a oni zajmują się częściami, które normalnie zamieniają się w miesiąc pracy infrastrukturalnej (harmonogramowanie, skalowanie, preempcje, odzyskiwanie po awarii, dlaczego ta praca zakończyła się na 93% itp.).
Jest też pierwszym rozwiązaniem LoRA, co jest dokładnie właściwym domyślnym ustawieniem dla dostosowywania: iterujesz szybciej, koszty pozostają rozsądne, możesz trzymać wiele wariantów bez duplikowania ogromnych punktów kontrolnych, a serwowanie staje się znacznie bardziej praktyczne. Podoba mi się również, że historia nie jest mglista: LoRA naprawdę może dorównać pełnemu fine-tuningowi w wielu zbiorach danych po treningu, gdy jest odpowiednio skonfigurowana, ale jeśli próbujesz wcisnąć ogromną zmianę zachowania w mały adapter (lub twój zbiór danych po prostu przewyższa efektywną pojemność adaptera), poczujesz ten wąskie gardło i nie zniknie to magicznie.
Jedynym prawdziwym minusem, który widzę, jest minimalny model: jeśli twoim celem są małe SLM-y na krawędzi, to prawdopodobnie nie jest to narzędzie. Mimo to, jestem podekscytowany. Nie mogę się doczekać, co ludzie zbudują.
770
Najlepsze
Ranking
Ulubione

