Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Quando costruisci agenti AI, non trattare i prompt come stringhe di configurazione.
Trattali come logica di business eseguibile. Perché è esattamente ciò che sono.
Il blog di @arshdilbagi e questa lezione del CS 224G di Stanford presentano uno dei modelli mentali più chiari che abbia mai visto per la valutazione dei LLM.
Smetti di trattare le valutazioni come test unitari.
Questo funziona per il software deterministico.
Per i prodotti LLM, crea falsa fiducia perché l'uso nel mondo reale cambia nel tempo.
Esempio: un prompt per l'assicurazione ha superato 20 casi di valutazione. Il team ha spedito. In produzione, è emersa una nuova classe di richieste e ha fallito silenziosamente. Nessun crash, nessun avviso, solo risposte sbagliate su larga scala.
La soluzione non è "scrivere più casi di valutazione", che è ciò che molti team fanno.
Si tratta di costruire valutazioni come un ciclo di feedback vivo. Inizia con un piccolo insieme, spedisci, osserva cosa si rompe in produzione, aggiungi quei fallimenti e riesegui su ogni cambiamento di prompt o modello.
Quale fallimento di valutazione ha colto di sorpresa il tuo team?
Blog:
Lezione CS 224G di Stanford:

Principali
Ranking
Preferiti
