المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
انطباعاتي في اليوم الأول عن كودكس 5.3 مقابل أوبوس 4.6:
الهدف: هل يمكنهم فعلا أداء وظيفة مهندس/باحث ذكاء اصطناعي؟
ملخص:
- نعم، (بشكل مفاجئ) يمكنهم ذلك.
- أوبوس 4.6 > كودكس-5.3-xhigh لهذه المهمة
- كلاهما قفزة كبيرة عن الجيل السابق
المهمة: تحسين @karpathy nanochat "GPT-2 speedrun" - وقت الساعة على الحائط إلى مستوى GPT-2. الكود محسن بشكل كبير بالفعل. #1 في لوحة المتصدرين يحقق 57.5٪ من MFU على 8×H100. التغلب عليه صعب حقا.
النتائج:
1. كلاهما تصرف كمهندسي ذكاء اصطناعي حقيقيين. قرأوا الكود، استكشفا الأفكار، أجروا اختبارات اختبارات صغيرة، كتبوا خططا، وبدأوا تدريبا كاملا من البداية إلى النهاية أثناء نومي.
2. استيقظت على انتصارات حقيقية من العمل 4.6:
- تجميع Torch "وضع Max-Autotune-No-Cudagraphs" (+1.3٪ سرعة)
- محسن الميون ns_steps=3 (+0.3٪ سرعة)
- BF16 softcap، تخطي .float() cast (ذاكرة -1GB)
إجمالي وقت التدريب: 174.42 متر → 171.40 متر
Codex-5.3-xhigh كان لديه أفكار مثيرة وMFU أعلى، لكنه أضر بالجودة النهائية. أظن أن حدود السياق كانت مهمة. رأيت أنه وصل إلى 0٪ في السياق في نقطة ما.
3. أجريت نفس التجربة سابقا على أوبوس 4.5 وكودكس 5.2. لم تكن هناك مكاسب ذات معنى. كلا الطرازين الجديدين أفضل بوضوح.
نظرة عامة:
أفضل Opus 4.6 لهذه المهمة تحديدا. نافذة السياق 1M مهمة. تجربة المستخدم أفضل.
الناس يكررون "Codex 5.3 > Opus 4.6"، لكنني أعتقد أن النماذج المختلفة تتألق في قواعد الشيفرة والمهام المختلفة.
نموذجان قويان هما انتصار.
سأستخدم كلاهما بسعادة....
الأفضل
المُتصدِّرة
التطبيقات المفضلة
