Trend Olan Konular
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Uzun video anlama çoğu multimodal LLM'yi bozuyor.
Saatlik videoları işlemenin varsayılan yaklaşımı, içeriğin kayıplı özetlere sıkıştırılması veya çerçevelerin agresif şekilde aşağı salınmasını içerir.
Bu, zamansal akıl yürütme yükünü erken ve geri döndürülemez bir aşamaya kaydırır. İnce deliller, model akıl yürütmeye başlamadan önce kaybolur.
Peki ya model, ne gözlemleyeceğine, ne zaman detay soracağına ve yeterince kanıt topladığında aktif olarak karar verebilseydi?
Bu yeni araştırma, master LLM'nin her şeyi önceden pasif kodlamak yerine özel ajanları koordine ettiği çok ajanlı bir çerçeve olan LongVideoAgent'ı tanıtıyor.
Ajanik akıl yürütme, modellerin ilgili kliplere odaklanmasını ve doğru bilginin sıkıştırılmadan hayatta kalmasını ummak yerine hedefli kanıt toplamalarını sağlar.
Mimari üç bileşenden oluşur. Bir usta ajan, akıl yürütmeyi yönetir ve her adımda hangi adımı atacağına karar verir. Bir topraklama ajanı, tüm bölüm zaman çizelgesinde soru ile ilgili bölümleri yerelleştirir. Bir görme ajanı, bu segmentler içindeki belirli çerçevelerden hedefli gözlemler çıkarır.
Ana ajan, her turda tam olarak bir yapılandırılmış eylem yayarak K adıma kadar koşuyor: topraklama istemesi, görsel detay sorgusu veya cevap. Her eylemin çıktısı, bir sonraki karar için bağlama beslenir. Yeterli kanıt toplandığında, usta nihai cevabı sunar.
Gerçek Gerçek, usta ajana ne zaman keşfedip ne zaman durmasını öğretir. GRPO eğitimi iki basit ödül kullanır: iyi oluşturulmuş eylemler için yapısal geçerlilik ve sonlandırmada yanıtın doğruluğu. Bu minimal hedef, yoğun denetim olmadan yapılandırılmış çok turlu koordinasyonu yönlendirir.
TVQA'dan toplanan bölüm düzeyindeki benchmarklar olan LongTVQA ve LongTVQA+ üzerinde ise, ajanik yaklaşım sürekli olarak ajanik olmayan temel değerleri geride bırakır. GPT5-mini, çoklu ajanlı çerçeve ile %62,4'ten %71,1'e yükseliyor. Qwen2.5-3B oranı gerçek yaşam eğitiminden sonra %23,5'ten %47,4'e yükseldi ve performansı neredeyse iki katına çıkardı. Hatta DeepSeek-R1-671B bile ajanik tasarımdan faydalanıyor.
Sadece topraklama ile ajansız başlangaz değeri %69,0 ile %64,3'e karşı geçer ve görme eklenmesi isabetliliği %74,8'e çıkarır.
Makale:
Akademimizde etkili yapay zeka ajanları oluşturmayı öğrenin:

En İyiler
Sıralama
Takip Listesi
