Trend Olan Konular
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Codex 5.3 ile Opus 4.6 arasındaki ilk gün izlenimleri:
Hedef: Gerçekten bir yapay zeka mühendisi/araştırmacısı olarak görev yapabilirler mi?
Özet:
- Evet, (şaşırtıcı şekilde) yapabilirler.
- Opus 4.6 > Bu görev için Codex-5.3-xhigh
- İkisi de geçen nesle göre büyük bir sıçrayış
Görev: @karpathy'nin nanochat "GPT-2 speedrun"unu optimize etmek - duvar saati zamanı GPT-2 seviyesi eğitime geçmek. Kod zaten oldukça optimize edilmiş. Liderlik tablosunda #1 8×H100'de %57,5 MFU oranına ulaşıyor. Onu yenmek gerçekten zor.
Sonuçlar:
1. İkisi de gerçek yapay zeka mühendisleri gibi davranıyordu. Kodu okudular, fikirleri keşfettiler, mini benchmarklar yaptılar, planlar yazdılar ve ben uyurken uçtan uca tam eğitime başladılar.
2. Opus 4.6'dan gerçek kazanımlarla uyandım:
- Torch derlemesi "Max-Autotune-No-Cudagraphs Modu" (+%1,3 hız)
- Muon optimizatoru ns_steps=3 (+%0,3 hız)
- BF16 softcap, atla .float() yayın (-1GB bellek)
Toplam antrenman süresi: 174.42m → 171.40m
Codex-5.3-xhigh ilginç fikirlere ve daha yüksek MFU'ya sahipti ama nihai kaliteyi olumsuz etkiledi. Bağlam sınırlamalarının önemli olduğunu düşünüyorum. Bir noktada bağlamın %0'ına ulaştığını gördüm.
3. Aynı deneyi daha önce Opus 4.5 ve Codex 5.2'de yürütmüştüm. Anlamlı bir kazanç yoktu. Her iki yeni model de açıkça daha iyi.
Genel görüş:
Bu özel görev için Opus 4.6'yı tercih ediyorum. 1M bağlam penceresi önemli. UX daha iyi.
İnsanlar sürekli "Codex 5.3 > Opus 4.6" diyor, ama bence farklı modeller farklı kod tabanlarında ve görevlerde parlıyor.
İki güçlü model bir kazançtır.
İkisini de memnuniyetle kullanırım....
En İyiler
Sıralama
Takip Listesi
