Trend Olan Konular
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Yapay zeka ajanları oluştururken, promptları yapılandırma dizileri gibi ele almayın.
Onları yürütülebilir iş mantığı gibi ele alın. Çünkü aslında onlar bunlar.
@arshdilbagi'in blogu ve bu Stanford CS 224G dersi, LLM değerlendirmesi için gördüğüm en net zihinsel modellerden birini ortaya koyuyor.
Değerlendirmeleri birim sınavı gibi ele almayı bırakın.
Bu deterministik yazılım için işe yarar.
LLM ürünleri için gerçek dünya kullanımı zamanla değiştiği için yanlış güven yaratır.
Örneğin: bir sigorta önerisi 20 değerlendirme vakasını geçti. Ekip gönderildi. Yapımda, yeni bir istek sınıfı ortaya çıktı ve sessizce başarısız oldu. Çöküş yok, uyarı yok, sadece büyük ölçekte yanlış cevaplar.
Çözüm, birçok takımın yaptığı gibi "daha fazla değerlendirme vakası yazmak" değil.
Değerlendirmeleri yaşayan bir geri bildirim döngüsü olarak oluşturuyor. Küçük bir setle başlayın, gönderin, üretimde neler bozulduğunu izleyin, bu hataları geri ekleyin ve her prompt veya model değişikliğinde tekrar çalıştırın.
Hangi değerlendirme başarısızlığı takımınızı hazırlıksız yakaladı?
Blog:
Stanford CS 224G dersi:

En İyiler
Sıralama
Takip Listesi
