Trend Olan Konular
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ben de aynı düşünceyi düşündüm, bu yüzden nanochat'te oynuyorum. Örneğin, işte 8 ajan var (4 Claude, 4 codex), her biri 1 GPU nanochat deneyleri yapıyor (logit softcap'ını regresyon olmadan silmeye çalışıyor). Özetle, çalışmıyor ve tam bir karmaşa... Ama yine de bakması çok güzel:)
Birkaç düzen denedim: 8 bağımsız solo araştırmacı, 1 baş bilim insanı 8 genç araştırmacıya iş veriyor, vb. Her araştırma programı bir git dalıdır, her bilim insanı onu bir özellik dalına çatallar, izolasyon için git iş ağaçları, iletişim için basit dosyalar, şu anda basitlik için Docker/VM'leri atlar (komutların paraziti önlemek için yeterli olduğunu düşünüyorum). Araştırma organizasyonu, etkileşimli oturumların tmux pencere ızgaralarında (Teams gibi) çalışıyor, böylece bakmak, bireysel çalışmalarını görmek ve gerekirse "devralmak" için güzel oluyor, yani -p yok.
Ama şimdiye kadar çalışmamasının sebebi, ajanların fikirlerinin kutudan çıktığı gibi oldukça kötü olması, en yüksek zekada bile. Deney tasarımında dikkatli düşünmezler, biraz mantıksız varyasyonlar yaparlar, güçlü bazlar oluşturmuyor ve işleri düzgün ablate etmiyorlar, çalışma süresi veya floplar için dikkatli kontrol etmiyorlar. (Örneğin, dün bir ajan "keşfetti" ki ağın gizli boyutunu artırmak doğrulama kaybını artırıyor, ki bu tamamen sahte bir sonuç çünkü daha büyük bir ağın sonsuz veri rejiminde doğrulama kaybı daha düşük olur, ama aynı zamanda çok daha uzun süre eğitim alır, neden gelip bunu belirtmek zorunda kaldığım belli değil). İyi kapsamlı ve tanımlanmış herhangi bir fikri uygulamada çok iyidirler ama yaratıcı olarak üretemezler.
Ama amaç artık bir organizasyonu (örneğin "araştırma organizasyonu") ve bireysel ajanlarını programlamaktır; yani "kaynak kodu" onu oluşturan promptlar, beceriler, araçlar vb. ve süreçlerin bir koleksiyonudur. Örneğin, sabah her gün yapılan stand-up artık "organizasyon kodu"nun bir parçası. Ve nanochat ön eğitimini optimize etmek, birçok görevden sadece biri (neredeyse bir değerlendirme gibi). O zaman - rastgele bir görev verildiğinde, araştırma organizasyonunuz bu konuda ne kadar hızlı ilerleme sağlıyor?
En İyiler
Sıralama
Takip Listesi
