Trend Olan Konular
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Bilimde yapay zekayı nasıl değerlendirdiğimizde temel bir sorunumuz var.
Mevcut benchmarklar izole yetenekleri test ediyor - Yapay zeka verileri analiz edebilir mi? Hipotezler mi üretiyorsun? Tasarım deneyleri?
Ama gerçek araştırma böyle çalışmaz 🧵

Yapay zeka Bilim İnsanlarını izole görev yürütücüleri yerine araştırma yardımcı pilotları olarak değerlendirmenin yeni bir yolunu öneren bir ön baskı yayımladık.
Öğrendiklerimiz, BioAgent'ları dünyanın en iyi bilimsel ajanları haline yeniden inşa etmemize rehberlik ediyor.
@arxiv üzerine makaleyi okuyun:

Çözmeye çalıştığımız ana sorun: Mevcut bilim ölçütleri için yapay zeka, biyomedikal araştırmacıların gerçek iş akışlarını yakalayamıyor.
Örneğin: bir doktora sonrası Pazartesi genetik verileri analiz eder, Salı hipotezlerini geliştirir, Perşembe günü revize edilmiş bütçelere göre protokolleri uyarlar, ardından her şeyi gelecek hafta bir öneriye entegre eder.
Mevcut benchmarklar ayrı ayrı test ediyor:
* Veri analiz kalitesi ✓
* Hipotez geçerliliği ✓
* Protokol tasarımı ✓
Ancak hiçbiri, yapay zekanın Perşembe günkü deneyleri tasarlarken Salı günkü hipotezi hatırlayıp hatırlamadığını ya da Perşembe günkü bütçe kısıtlamasının Pazartesi önerisine de uyup uymadığını değerlendirmiyor.

Tarama yapılan 3.200+ makale arasında, incelememiz 5 değerlendirme boyutunu belirledi:
* Geleneksel performans metrikleri
* Çok adımlı akıl yürütme ve deneysel planlama
* Güvenlik ve hata tespiti
* Bilgi sentezi
* Araç takviyesi iş akışları
Sürekli eksik bulduğumuz şey: bu boyutların gerçek Ar-Ge döngüleri ve deneysel tasarım sırasında nasıl birleştiğinde çalışması.
Bir yapay zeka her kıstatta geçebilir - ama yine de araştırma ortağı olarak zorlanabilir.
@ilyasut, yakın zamanda @dwarkesh_sp podcast'inde benzer bir noktayı gündeme getirdi ve günümüzün yapay zeka modellerinin kodlama ajanları olarak daha karmaşık görevler için genelleme yapamadığını gözlemledi:
Bu başarısızlık kalıpları sadece teorik değildir.
Recursion Pharmaceuticals haftalık olarak 2.2M yapay zeka rehberli deneyler yürütüyor ve laboratuvar otomasyonu pazarları yıllık %7–8 büyüyor.
Yüksek riskli araştırmalarda yapay zekanın depo edilmesi, bilimsel geçerlilik, tekrarlanabilirlik ve güvenlik açısından titiz kontroller gerektirir.
Sadece yetenek kıyaslamalarından iş akışı kıyaslamalarını da içermeye genişletmeyi öneriyoruz.
Dört boyut, tek bir görev puanından çok daha önemlidir:
1. Diyalog Kalitesi - Kararlılık yapmadan önce açıklayıcı sorular soruyor mu?
2. İş Akışı Düzenlemesi - Sonraki aşamalar önceki kısıtlamaları yansıtır mı?
3. Oturum Sürekliliği - Günler arasında bağlamı hatırlıyor mu?
4. Araştırmacı Deneyimi - Güveni uygun şekilde kalibre ediyor mu?
İş akışı kıyaslamaları, gerçek bilimin yaptığı gibi yapay zekayı stres testinden geçirmeyi amaçlar.
Eksik veriler, değişen bütçeler, çelişkili sonuçlar, DJ geri bildirimleri ve beklenmedik başarısızlıklar.
Yapay zeka uyum sağlıyor mu, yoksa katılık ve halüsinasyonlara mı çöküyor?
Sadece ilki gerçek bir araştırma ortağıdır.

Sonuç olarak: İzole görevlerde yüksek puan alan sistemler, araştırma yardımcı pilotu olarak başarısız olabilir.
Artık bilim insanlarının gerçekte nasıl çalıştığına göre ölçütleri genişletme zamanı: yinelemeli, sohbet edici, kısıtlamaların farkında, birden fazla oturumu kapsayan.
Bilim için yapay zekanın geleceği buna bağlı.
7,64K
En İyiler
Sıralama
Takip Listesi
