Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Hodnocení jsou dnes jako testy před deseti lety. Samozřejmě důležité, ale také nejasné, jak přesně a kolik investovat.
To je skvělá rada, ale nejdůležitější je to zkusit. Pokud váš produkt obsahuje umělou inteligenci a nemáte vyhodnocení, stavíte hrad z písku.

20. 5. 2025
Začít s EVALS nevyžaduje příliš mnoho. vzorec, který jsme viděli u malých týmů, vypadá hodně jako vývoj řízený testy aplikovaný na inženýrství umělé inteligence:
1/ Ukotvěte hodnocení v uživatelských příbězích, ne v abstraktních benchmarcích: sedněte si se svým produktovým/designovým protějškem a vyjmenujte konkrétní věci, které váš model musí pro uživatele udělat. "přesně odpovídat na otázky týkající se pojistných událostí", "generovat dotazy SQL z přirozeného jazyka". Pro každý z nich napište 10–20 reprezentativních vstupů a požadované výstupy/chování. Toto je váš první soubor vyhodnocení.
2/ Automatizujte od prvního dne, i když je křehká. Odolejte pokušení "jen tak se na to podívat". No, dobře, vibrace se neškálují příliš dlouho. Zabalte své evaly do kódu. Můžete napsat jednoduchý pytest, který se bude opakovat přes vaše příklady, volat model a vyhodnotí, že se objeví určité podřetězce. Je to hrubé, ale je to začátek.
3/ Použijte model pro bootstrap těžších evalových dat. Ruční psaní stovek okrajových případů je drahé. Pomocí modelů uvažování (O3) můžete generovat syntetické varianty ("dejte mi 50 otázek týkajících se škod způsobených požárem") a poté je ručně filtrovat. To urychluje pokrytí bez obětování relevance.
4/ Nehoňte se za žebříčky; iterujte to, co selže. Když něco selže v produkčním prostředí, neopravujte pouze výzvu – přidejte případ selhání do sady EVAL. Postupem času se vaše sada rozroste tak, aby odrážela vaše skutečné způsoby selhání. Pravidelně rozdělujte hodnoty (podle délky vstupu, podle národního prostředí atd.), abyste zjistili, zda se v určitých segmentech nevracíte zpět.
5/ Rozvíjejte své metriky podle toho, jak váš produkt dozrává. Při škálování budete chtít jemnější bodování (sémantická podobnost, lidská hodnocení, sledování nákladů a latence). Postavte si háčky do svého postroje EVAL, abyste je zaznamenávali a v průběhu času je vylepšovali. přizpůsobte své uživatelské rozhraní tak, aby shromažďovalo implicitní zpětnou vazbu (kliknul uživatel na "palec nahoru"?) a vracelo ji zpět do vašich offline hodnocení.
6/ Zviditelněte evaly. Umístěte před tým a zúčastněné strany jednoduchý dashboard zobrazující míru úspěšnosti, náklady a latenci EVAL. Použijte jej ve stand-upech. to vytváří odpovědnost a pomáhá lidem, kteří nejsou ML, účastnit se diskusí o kompromisu.
A konečně, považujte evals za základní technický artefakt. Přiřaďte vlastnictví, zkontrolujte je v recenzi kódu, oslavte, když přidáte nový složitý případ. Tato disciplína se vám vyplatí, jak budete škálovat.
1,13K
Top
Hodnocení
Oblíbené