DApp Mağazası | Etkinlikler ve Oyunlar için Web3 Merkezi

Trend Olan Konular

Her yeni "son teknoloji" kıyaslama puanı gördüğümde, basit bir düşünce deneyi deniyorum. Eğer yapay zeka para ise, MMLU'daki her doğruluk noktası bir maaş kararı, kredi limiti, bir takas, klinik bir işarettir. Bugün benchmark'lar modelleri sınav haftasındaki öğrenciler gibi ele alıyor. MMLU %88, HumanEval ise %8, arena kazanma oranları ama model gerçekten ücretli iş yaparken önemli olan soruyu neredeyse kimse sormuyor. Tam olarak bu beyin, tam olarak bu durumda, bu cevabı doğru mu verdi? O katmanı görmezden geldiğinizde ne olduğunu zaten biliyoruz. 2021–2022 çip kıtlığı sırasında, yıllardır "yeterince iyi" olan tedarik zinciri modelleri uçurumdan aşağı düştü. Sürekli ekonomik olarak mantıklı olmayan planlar öneriyorlardı çünkü dünya onların altında değişmişti ve kimse bunu yeterince hızlı fark etmemişti. Daha yakın zamanda, Claude kullanıcıları haftalarca düşük çıktılar keşfettikten sonra Anthropic, üç ayrı altyapı hatasının sessizce yanıtları bozduğunu itiraf etti. Böyle birçok vaka ki bunlar kolayca (neredeyse fazlasıyla uygun şekilde) konuşulmaz. Ambient'te bunu ölçülebilecek bir şey olarak ele almaya başladık. Kendi İlkokul Matematik deneylerimiz basit aritmetik yöntemler alır ve sınır modellerinin masa bahisleri olarak görmeleri gereken görevlerde ne sıklıkla sallandığını gösterir. Bazı "yapay zeka geliri" slaytlarının kardeş slayt olmadan eksik göründüğünü gördüğünüzde: doğrulanmış çıkarım için bir slayt (ki bunu hangi modelin hangi ağırlıkla hangi sorğu hangi anda yanıtladığını kanıtlama yeteneği olarak tanımlıyorum). Eğer yapay zeka bordro, risk ve operasyonların ortasında kalacaksa, benchmarkların gelişmesi gerekecek ve doğruluk giriş bileti olacak. Ekonomik teşvikler altında doğrulanabilir davranış gerçek sınavdır.

En İyiler

Sıralama

Takip Listesi