Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Upřímně řečeno, většina vývojářů AI je stále zaseknutá v minulém století.
Udivuje mě, jak málo lidí ví o analýze chyb.
Jedná se *doslova* o nejrychlejší a nejefektivnější způsob hodnocení aplikací umělé inteligence a většina týmů se stále honí za duchy.
Přestaňte prosím sledovat obecné metriky a postupujte podle následujících kroků:
1. Sbírejte vzorky poruch
Začněte kontrolovat odpovědi vygenerované vaší aplikací. Ke každé odpovědi si napište poznámky, zejména k těm, které byly chybné. Poznámky nemusíte formátovat žádným konkrétním způsobem. Zaměřte se na popis toho, co se v odpovědi pokazilo.
2. Kategorizujte své poznámky
Poté, co jste zkontrolovali dobrou sadu odpovědí, vezměte si LLM a požádejte ho, aby ve vašich poznámkách našel společné vzory. Požádejte ho, aby každou notu na základě těchto vzorů klasifikoval.
Skončíte s kategoriemi pokrývajícími všechny typy chyb, které vaše aplikace udělala.
3. Diagnostikujte nejčastější chyby
Začněte tím, že se zaměříte na nejčastější typ chyby. Nechcete ztrácet čas prací se vzácnými chybami.
Přejděte k podrobnostem o konverzacích, vstupech a protokolech, které vedou k těmto nesprávným ukázkám. Pokuste se pochopit, co by mohlo být příčinou problémů.
4. Navrhněte cílené opravy
V tomto okamžiku chcete zjistit, jak co nejrychleji a nejlevněji odstranit chyby, které jste diagnostikovali v předchozím kroku.
Můžete například upravit výzvy, přidat další ověřovací pravidla, najít další trénovací data nebo upravit model.
5. Automatizujte proces hodnocení
Je třeba implementovat jednoduchý proces, který znovu spustí sadu vyhodnocení prostřednictvím vaší aplikace a vyhodnotí, zda byly vaše opravy účinné.
Doporučuji použít LLM-as-a-Judge k prohnání vzorků aplikací, jejich ohodnocení pomocí tagu PASS/FAIL a výpočtu výsledků.
6. Sledujte své metriky
Každá kategorie, kterou jste identifikovali během analýzy chyb, je metrika, kterou chcete sledovat v průběhu času.
Nikam se nedostanete, pokud budete posedlí "relevancí", "správností", "úplností", "koherencí" a dalšími nestandardními metrikami. Zapomeňte na ně a zaměřte se na skutečné problémy, které jste našli.

49,35K
Top
Hodnocení
Oblíbené