Trend Olan Konular
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Brian Zhan
Erken aşama yapay zekaya yatırım @CRV. Tohum/A: @Reflection_AI, @SkildAI, @DynaRobotics, @LanceDB, Lepton (alınan NİD), @VoyageAI (alınan MongoDB), @SDFLabs (alınan hedef veriler)
Zaten Claude Code içinde yaşıyorsanız, bariz olanları bilirsiniz (terminal-yerli, sıkı döngü, çalışmasını izlemek, grep loglar, patch, rerun, commit). İşte daha ilginç soru:
Codex neden etkileşimli terminal ajanı havasını klonlamadan yakalaşıyor gibi hissediyor?
Codex önce delege edilir, çift programlama öncesi değildir.
Claude Code'un süper gücü, sıkı ve etkileşimli kontrol döngüsüdür:
Sen ve ajan tek bir kokpiti paylaşıyorsunuz. İzlenebilir. Uçuşun ortasında müdahale ediyorsun. Zamanı kötü bir yola sokmadan önce yönlendirirsin. Temelde kabuğunuzun bir uzantısı olarak ajan gibi.
Codex'in bahisi farklı: ajan paralel bir iş arkadaşı olarak kendi bilgisayarında çalışan biri olarak
Bu çerçeveleme, sadece model çıktılarını karşılaştırırsanız kolayca gözden kaçabilecek birçok ürün sonucunu ima eder:
1) Asenkron bir özellik olarak (yan etki değil)
Codex, bir görevi devretmeniz, başka bir şey yapmanız ve tekrar incelenebilir bir esere dönmeniz için tasarlanmıştır
Ağırlık merkezi PR/diferans olur. Bu yüzden "delege etmek", "bolluk zihniyeti", "bir sürü görevi sıraya koymak" gibi ifadeler görüyorsunuz. İş akışı şöyle: N iş başlat, sonra gözden geçirme/birleştir.
2) İzolasyon ve sandbox sadece altyapı değil, kullanıcı arayüzü.
Her görev, kendi izole ortamında çalışan güven modelini değiştirir: Ajan, yerel çalışma alanınızı kirletmeden testler yapabilir, dosyaları değiştirebilir, commitler oluşturabilir. Güvenlik sınırları (ve çoğu zaman muhafazakar varsayılan durumlar) var, bu da bunu yapmasına izin vermeyi kolaylaştırıyor.
3) Birleştirilebilirlik gerçek hedef metriktir. Claude Code harika hissettiriyor çünkü döngü yakınsıyor. Codex ise açıkça birleştirebileceğiniz bir şey için optimize ediyor.
Böylece karşılaştırmanın şekli daha net hale geliyor:
Claude Code = en iyisi, görev orta akış değerlendirmeleri, hızlı kesintiler ve insan yönlendirmesi gerektirdiğinde. "Sıkı kokpit halkası".
Codex = en iyisi, görev devredilebilen, paralelleştirilip birleştirilebilir eserler olarak geri getirilebildiğinde elde edilir. "Kendi çalışma alanı olan iş arkadaşı".
Daha derin sınır otomatik tamamlama kalitesi değildir.
Uçtan uca kontrol döngüleri ve doğrulama:
bağlam -> plan -> düzenlemeler -> yürütme -> doğrulama -> incelenebilir eser
Ve gerçek hendek doğrulama ve tadına göre inşa edilir:
- Doğru testleri yapıyor mu?
- CI hatalarını doğru yorumluyor mu?
- Repo'nun deyimlerine uyan küçük farklılıklar mı üretiyor?
- Bakıcılık olmadan birleştirebileceğiniz bir şeyi güvenilir şekilde geri getiriyor mu?
Tahminim, hibrit bir iş akışına yaklaşıyoruz:
belirsiz işler için etkileşimli Claude Code döngüsü + verimli çalışma için sandboxed paralel Codex işleri.
Kazanan, bu modlar arasında en iyi yönlendiriciyi inşa eden ve delegasyonu git durumu kadar güvenilir hissettiren kişidir.
229
Thinking Machines'ten GA olan Tinker, uzun zamandır gerçekten bir ürün olarak eğitim gibi hissettiren ilk lansmanlardan biri.
Çoğu barındırılan ince ayar API'si (OpenAI tarzı dahil) temiz bir SFT koşusu olduğunda harika, ama biraz da acı bir şey yapmak istediğinizde: özel müfredat, çevrimiçi değerlendirme, ödül şeklinde eğitim sonrası eğitim, gerçek doğaya özgü döngüler, garip toplu işleme/paketleme numaraları: hızlıca tavana ulaşıyorsunuz ve yarım antrenman yığınını yeniden inşa ediyorsunuz.
Tinker bunu temelde tersine çeviriyor: size düşük seviyeli ilkel öğelerle (örnek / forward_backward / optim_step / save_state) bir eğitim API'si veriyor, böylece gerçekten istediğiniz döngüyü yazıyorsunuz ve normalde bir aylık altyapı çalışmasına dönüşen parçaları (planlama, ölçeklendirme, önkesmeler, arıza kurtarma, neden bu işin %93'te öldüğü gibi şeyler) hallediyorlar.
Ayrıca LoRA'ya öncül, ki bu özelleştirme için tam olarak doğru varsayılan: daha hızlı iterasyon yaparsınız, maliyetler mantıklı kalır, dev kontrol noktalarını tekrarlamadan birden fazla varyantı tutabilirsiniz ve servis yapmak çok daha pratik hale geliyor. Ayrıca hikayenin el sallamamasını da seviyorum: LoRA, doğru kurduğunuzda birçok eğitim sonrası veri setinde tam ince ayarla eşleşebiliyor, ama küçük bir adaptöre büyük bir davranış değişikliği sığdırmaya çalışıyorsanız (ya da veri setiniz adaptörün etkili kapasitesini çok aşıyorsa), o darboğazı hissedeceksiniz ve sihirli bir şekilde ortadan kaybolmayacak.
Gördüğüm tek gerçek dezavantaj küçük model zemin: Eğer hedefiniz küçük kenar SLM'lerse, bu muhtemelen uygun bir araç değil. Yine de heyecanlıyım. İnsanların ne yaptığını görmek için sabırsızlanıyorum.
771
En İyiler
Sıralama
Takip Listesi

