Trend Olan Konular
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Yeni video anlama kağıdı: Yarın test ediyorum!
Uzun video anlayışı, çoklu modal LLM'ler için inatçı bir darboğaz olmaya devam ediyor; çoğu yaklaşım ağır sıkıştırma veya downsampling gerektirir; bu da akıl yürütmeye başlamadan önce ince tanenli zamansal ve görsel ipuçlarını geri dönüşü olmaz şekilde kaybeder.
Yeni makale "LongVideoAgent: Uzun Videolarla Çok Ajanlı Akıl Yürütme" bu konuyu çoklu ajanlı bir çerçeveyle doğrudan ele alıyor:
•Usta LLM, planlamayı sınırlı adımlarla (≤K) yönetir, kanıt toplama veya cevabın ne zaman tamamlanacağına karar verir.
• Topraklama ajanı, etkili zamansal arama için altyazılar kullanarak soru ile ilgili segmentleri yerelleştirir.
•Bir vizyon ajanı, bu segmentlerdeki anahtar çerçevelerden hedefli metin gözlemleri çıkarır ve altyazıları hassas görsel detaylarla tamamlar.
Bu yinelemeli, ajanik süreç, kayıplı ön kodlamadan kaçınarak seyrek ama yüksek isabetli kanıt toplamayı mümkün kılar.
Ana ajan, yapısal geçerlilik ve nihai doğruluk için ödüllerle güçlendirme öğrenme (GRPO) ile daha da geliştirilir; verimli çok turlu koordinasyon öğretilir.
Yeni bölüm düzeyindeki kıyaslamalar (LongTVQA ve LongTVQA+, TVQA'dan toplanmış):
•Ajanik tasarım, sürekli olarak ajan olmayan bazları geride bırakır.
•Topraklama + görüş eklemek ~%10 mutlak kazanç sağlar.
•RL açık kaynak modelleri büyük ölçüde artırır (örneğin, Qwen2.5-7B performansı neredeyse iki katına çıkarır).
Ölçeklenebilir, yorumlanabilir uzun bağlamlı video akıl yürütmesine doğru akıllıca bir adım.
Makale:
Proje:
#AI #Multimodal #Agents #LongVideoQA

En İyiler
Sıralama
Takip Listesi
