Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Brian Zhan
Berinvestasi dalam @CRV AI tahap awal. Benih/A: @Reflection_AI, @SkildAI, @DynaRobotics, @LanceDB, Lepton (acq NVIDIA), @VoyageAI (acq MongoDB), @SDFLabs (acq dbt)
Jika Anda sudah tinggal di dalam Claude Code, Anda tahu hal-hal yang jelas (terminal-native, loop ketat, tonton jalannya, log grep, patch, rerun, commit). Jadi inilah pertanyaan yang lebih menarik:
mengapa Codex terasa seperti mengejar ketinggalan tanpa hanya mengkloning getaran agen terminal interaktif?
Codex adalah delegasi-pertama, bukan pair-programming-first.
Kekuatan super Claude Code adalah loop kontrol interaktif yang ketat:
Anda dan agen berbagi satu kokpit. Itu bisa ditonton. Anda campur tangan di tengah penerbangan. Anda mengarahkan sebelum membakar waktu ke jalan yang buruk. Ini pada dasarnya agen sebagai perpanjangan dari cangkang Anda.
Taruhan Codex berbeda: agen sebagai rekan kerja paralel yang bekerja di komputernya sendiri
Pembingkaian itu menyiratkan banyak konsekuensi produk yang mudah terlewatkan jika Anda hanya membandingkan output model:
1) Asinkron sebagai fitur (bukan efek samping)
Codex dirancang agar Anda dapat menyerahkan tugas, melakukan sesuatu yang lain, dan kembali ke artefak yang dapat ditinjau
Pusat gravitasi menjadi PR/diff. Itu sebabnya Anda melihat bahasa seperti "delegasi", "pola pikir kelimpahan", "mengantri banyak tugas". Alur kerjanya adalah: menelurkan N pekerjaan, lalu tinjau/gabungkan.
2) Isolasi dan sandboxing bukan hanya infrastruktur, melainkan UX.
Setiap tugas yang berjalan di lingkungan terisolasinya sendiri mengubah model kepercayaan: Agen dapat menjalankan pengujian, memodifikasi file, menghasilkan penerapan tanpa mencemari ruang kerja lokal Anda. Anda mendapatkan batasan keamanan (dan seringkali default konservatif) yang membuatnya lebih mudah untuk membiarkannya melakukannya begitu saja.
3) Kemampuan penggabungan adalah metrik target yang sebenarnya. Claude Code terasa hebat karena loop menyatu. Sedangkan Codex secara eksplisit mengoptimalkan kembali dengan sesuatu yang dapat Anda gabungkan.
Jadi bentuk perbandingan menjadi lebih jelas:
Claude Code = terbaik ketika tugas membutuhkan panggilan penilaian mid-stream, interupsi cepat, dan kemudi manusia. Ini adalah "loop kokpit yang ketat".
Codex = terbaik ketika tugas dapat didelegasikan, diparalelkan, dan dikembalikan sebagai artefak yang dapat digabungkan. Ini adalah "rekan kerja dengan ruang kerjanya sendiri".
Perbatasan yang lebih dalam bukanlah kualitas pelengkapan otomatis.
Ini adalah loop kontrol end-to-end dengan verifikasi:
konteks -rencana > -> pengeditan -eksekusi > -verifikasi > -artefak > dapat ditinjau
Dan parit yang sebenarnya dibangun pada verifikasi dan selera:
- Apakah itu menjalankan tes yang benar?
- apakah itu menafsirkan kegagalan CI dengan benar?
- Apakah itu menghasilkan perbedaan kecil yang cocok dengan idiom repo Anda?
- Apakah itu dengan andal mengembalikan sesuatu yang dapat Anda gabungkan tanpa mengasuh anak?
Dugaan saya adalah kita menyatu ke alur kerja hibrida:
perulangan Claude Code interaktif untuk pekerjaan ambigu + pekerjaan Codex paralel kotak pasir untuk throughput.
Pemenangnya adalah siapa pun yang membangun router terbaik di seluruh mode tersebut dan membuat delegasi terasa dapat diandalkan seperti status git.
176
Tinker dari Thinking Machines menjadi GA adalah salah satu peluncuran pertama dalam beberapa waktu yang benar-benar terasa seperti pelatihan sebagai produk.
Sebagian besar API penyempurnaan yang dihosting (termasuk gaya OpenAI) luar biasa ketika yang Anda butuhkan hanyalah menjalankan SFT yang bersih, tetapi saat Anda ingin melakukan sesuatu bahkan sedikit pedas: kurikulum khusus, eval online, pasca-pelatihan berbentuk hadiah, loop RL-ish, trik batching/pengepakan yang aneh: Anda mencapai langit-langit dengan cepat dan akhirnya membangun kembali setengah tumpukan pelatihan.
Tinker pada dasarnya membaliknya: ia memberi Anda API pelatihan dengan primitif tingkat rendah (sampel / forward_backward / optim_step / save_state), jadi Anda menulis loop yang sebenarnya Anda inginkan, dan mereka mengurus bagian-bagian yang biasanya berubah menjadi pekerjaan infra selama sebulan (penjadwalan, penskalaan, preemption, pemulihan kegagalan, mengapa pekerjaan ini mati pada 93% barang).
Ini juga LoRA-first, yang merupakan default yang tepat untuk penyesuaian: Anda mengulangi lebih cepat, biaya tetap waras, Anda dapat menjaga beberapa varian tanpa menduplikasi pos pemeriksaan raksasa, dan melayani menjadi jauh lebih praktis. Saya juga suka bahwa ceritanya tidak bergelombang tangan: LoRA benar-benar dapat mencocokkan penyempurnaan penuh pada banyak kumpulan data pasca-pelatihan ketika Anda mengaturnya dengan benar, tetapi jika Anda mencoba menjejalkan pergeseran perilaku besar-besaran ke dalam adaptor kecil (atau kumpulan data Anda hanya mengerdilkan kapasitas efektif adaptor), Anda akan merasakan kemacetan itu dan itu tidak akan hilang secara ajaib.
Satu-satunya kelemahan nyata yang saya lihat adalah lantai model kecil: jika tujuan Anda adalah SLM tepi kecil, ini mungkin bukan alatnya. Tetap saja, saya bersemangat tentang itu. Tidak sabar untuk melihat apa yang dibangun orang.
723
Teratas
Peringkat
Favorit

