Trend Olan Konular
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
LongCat ekibinin bu makalesi, modern yapay zeka araştırmalarında kaçınılmaz hale gelen bir soruyu ele alıyor: Kıyaslamalarda parlak görünen akıl yürütme modelleri neden gerçek, karmaşık ortamlara atıldıklarında hâlâ zorlanıyor?
Yazarlar, sadece düşünmek için değil, aynı zamanda hareket etmek için tasarlanmış 560B parametreli Uzmanlar Karışımı modeli olan LongCat-Flash-Thinking-2601'i tanıtıyor. Temel iddia, ajanik akıl yürütmenin yalnızca daha iyi düşünce zincirinden doğmadığıdır. Çevreler, aletler, gürültü ve başarısızlıkla sürekli etkileşimden ortaya çıkar.
Teknik hamle ince ama önemli. Makale akıl yürütmeyi statik bir metin problemi olarak ele almak yerine, bunu kapalı döngü süreci olarak çerçeveliyor: gözlemle, →plan → hareket → geri bildirim al→ revize et.
Bu değişim her yerde değişiklikleri zorlar: veri oluşturma, eğitim algoritmaları, altyapı ve hatta çıkarım zamanı davranışı.
Önemli bir katkı çevresel ölçeklendirmedir. Birkaç el yapımı ajan benchmark'ına güvenmek yerine, yazarlar 20+ alan boyunca 10.000'den fazla yürütülebilir ortam oluşturan otomatik bir boru hattı inşa ediyorlar. Her ortam, gerçek araç bağımlılıklara, doğrulanmış veritabanlarına ve birden fazla geçerli çözüm yoluna dayanır. Zorluk yapısı yapısal olarak ölçeklenir, sezgisel olarak değil.
Bu ortamlarda eğitim normalde gürültü altında çöker. Bu nedenle makale gerçek dünya kusurlarını açıkça modelliyor: belirsiz talimatlar, araç arızaları, kısmi çıktılar.
Gürültü bir kenar vakası olarak ele alınmıyor. Bu müfredata entegre edilmiş, karmaşıklığı giderek artıyor, böylece dayanıklılık öğrenilir, sonra yamalanmaz.
Bunun üzerine, uzun kuyruklu, çok turlu etkileşimleri ölçekte yönetmek için asenkron pekiştirme öğrenmesini (DORA) genişletiyorlar ve on binlerce eşzamanlı ortamda bile eğitimi stabil tutuyorlar.
Çıkarım zamanında, model Ağır Düşünme Modu'nu tanıtır. Uzun bir düşünce zinciri yerine, paralel akıl yürütme yolları ilerliyor, ardından bunları ikincil bir yansıtıcı aşamadan geçiriyor. Bu, hem akıl yürütme derinliğini hem de genişliğini ölçeklendirir ve karmaşık görevlerde sürekli olarak kendi tutarlılığını geride bırakır.
Sonuçlar çarpıcı. LongCat-Flash-Thinking-2601, BrowseComp, τ²-Bench ve VitaBench gibi ajanik benchmarklarda açık kaynak modeller arasında en son performansı sağlarken, matematik, kodlama ve arama alanlarında kapalı modellerle rekabet halini sürdürür.
Daha da önemlisi, gürültülü koşullarda performans çok daha az düşer.
Daha geniş bir ima varım rahatsız edici ama açık: mantık kalitesi artık dar boğaz değil. Genelleştirme ise bu. Ve genelleme ortamlardan gelir, isteklerden değil.
Bu makale, demo dışında çalışan ajanlar istiyorsak, onları temiz, hayali dünyalarda eğitmeyi bırakmamız gerektiğini savunuyor. Gerçek zeka, her şeyin kırıldığı yerde şekillenir.
Makale: LongCat-Flash-Thinking-2601 Teknik Raporu

En İyiler
Sıralama
Takip Listesi
