DApp Store | Centrum Web3 pro události a hry

Populární témata

Kangwook Lee

UW Madison / KRAFTON AI

LLM jako rozhodčí se stal dominantním způsobem, jak hodnotit, jak dobrý je model při řešení úkolu, protože funguje bez testovací sady a zpracovává případy, kde odpovědi nejsou jedinečné. Ale i přes to, jak široce se toto používá, téměř všechny hlášené výsledky jsou silně zaujaté. Těšíme se, že můžeme sdílet náš preprint o tom, jak správně používat LLM jako soudce. 🧵 === Jak tedy lidé vlastně používají LLM jako soudce? Většina lidí používá LLM jen jako hodnotitele a uvádí empirickou pravděpodobnost, že LLM řekne, že odpověď vypadá správně. Když je LLM dokonalý, funguje to dobře a poskytuje nestranný odhad. Pokud LLM není dokonalý, tento se rozbije. Uvažujme případ, kdy LLM vyhodnocuje správně 80 procent času. Konkrétněji, pokud je odpověď správná, LLM říká "to vypadá správně" s 80% pravděpodobností, a stejných 80 % platí, když je odpověď skutečně nesprávná. V této situaci byste neměli empirickou pravděpodobnost uvádět, protože je zaujatá. Proč? Nechť skutečná pravděpodobnost správné testovaného modelu je p. Pak empirická pravděpodobnost, že LLM řekne "správně" (= q), je q = 0,8p + 0,2(1 - p) = 0,2 + 0,6p Takže nestranný odhad by měl být (q - 0,2) / 0,6 Situace je ještě zajímavější, pokud je chybový vzor asymetrický nebo pokud tyto chybovosti neznáte předem. === Co to tedy znamená? Nejprve dodržujte doporučené pokyny v našem preprintu. Oběd zdarma není. Nemůžete hodnotit, jak dobrý je váš model, pokud váš LLM jako rozhodčí není známý tím, že je v jeho hodnocení dokonalý. Podle toho, jak blízko je k dokonalému evalátoru, potřebujete dostatečnou velikost testovací množiny (= kalibrační sady) k odhadu chybovosti hodnotitele, a pak je musíte korigovat. Za druhé, velmi bohužel, mnoho zjištění, která jsme viděli v článcích v posledních letech, je třeba znovu přehodnotit. Pokud dva články nepoužívaly stejný LLM jako soudce, porovnání výsledků mezi nimi mohlo vést k nepravdivým tvrzením. Zlepšení může jednoduše přijít z mírné změny hodnotícího procesu. Naléhavě je potřeba důkladná metastudie. === Shrnutí: (1) Téměř všechna hodnocení LLM jako soudce v posledních letech byla hlášena s zaujatým odhadcem. (2) Je snadné to opravit, proto počkejte na náš kompletní preprint. (3) Mnoho výsledků LLM jako soudce by mělo být bráno s rezervou. Celý preprint vyjde za pár dní, tak zůstaňte naladěni! Úžasná práce mých studentů a spolupracovníků. @chungpa_lee @tomzeng200 @jongwonjeong123 a @jysohn1108

DLLM vypadají slibně... Paralelní generování však není vždy možné LLM založené na difúzi mohou generovat mnoho tokenů na různých pozicích najednou, zatímco většina autoregresivních LLM generuje tokeny jeden po druhém. Díky tomu jsou LLM založené na difúzi velmi atraktivní, když potřebujeme rychlou generaci s menším výpočetním výkonem. Velkou otázkou je... Je možné paralelní generování bez ztráty přesnosti modelování? Odpověď zní ne. Existují základní limity toho, jak velkého paralelismu můžeme dosáhnout. Uvažujme tento příklad: "Vyberte si jednotně náhodně jedno město z následujících čtyř měst: New York, New Orleans, Mexico City nebo Panama City." Potom P(Y₁ = nový, Y₂ = York) = 1/4, P(Y₁ = nový, Y₂ = Orleánský) = 1/4 a tak dále. Tedy P(Y₁ = Nový) = 1/2, P(Y₂ = Město) = 1/2. Pokud se rozhodnete generovat Y₁ a Y₂ paralelně, bez ohledu na to, jaký dekódovací algoritmus použijete... Jste odsouzeni k tomu, abyste si vyzkoušeli "New City". Žádný z dnešních modelů DLL nedokáže tyto dvě slova správně vygenerovat, aniž by se vzdal paralelismu. ----- Proč tomu tak je? Ve skutečnosti nikdy netrénujeme LLM, aby se naučili společné rozdělení přes více tokenů v jedné dopředné iteraci. Vždy vyučujeme jednotokenové marginální rozdělení podmíněné kontextem. (Totéž platí i pro autoregresní modely.) Proto je vzorkování více tokenů najednou možné pouze v případě, že jsou tyto tokeny vzájemně nezávislé vzhledem k aktuálnímu kontextu. A toto omezení paralelního vzorkování lze přesně formalizovat. Lze odvodit informačně-teoretickou limitu, která je agnostická vůči dekódovací strategii, a také odvodit limity specifické pro strategii. ----- Jsou tedy DLLM odsouzeny k zániku? Ne! Mají obrovský potenciál ušetřit výpočetní prostředky a čas. Ale: (1) musíme si být vědomi jejich základních omezení a (2) musíme navrhnout lepší strategie školení a dekódování. Zejména je zde obrovský prostor pro zlepšení v dekódování. Proč? V ideálním případě chceme, aby model řídil stupeň paralelismu během generování. Zároveň by měla zvolit podmnožinu budoucích tokenů, které jsou vzhledem k aktuálnímu kontextu téměř vzájemně nezávislé. Jsou v tom současné dekódovací strategie dobré? Těžko říct. Většina DLL knihoven pro něj nikdy nebyla testována zátěží. ----- Proto jsme zavedli syntetický benchmark pro zátěžové testování knihoven DLLM. Říkáme tomu ParallelBench. Myšlenka je jednoduchá: jedná se o úlohy v přirozeném jazyce, ale pečlivě navržené tak, aby paralelní generování bylo ze své podstaty obtížné. (Vzpomeňte si na "Nové město", ale přirozenější, skutečné úkoly.) Co jsme zjistili? Testovali jsme populární DLLM s různými dekódovacími algoritmy a žádný z nich se nepřiblížil výkonu "oracle", což je ideální výkon, který byste získali, pokud by model dokázal optimálně upravit svůj paralelismus během dekódování. ----- Stánek s jídlem: (1) Paralelní generování není vždy možné a další podrobnosti najdete v našem dokumentu :) (2) Pokud dokážete navrhnout knihovnu DLLM, která odpovídá výkonu Oracle v našem benchmarku, no, kdo ví, možná vám zavolá někdo z Menlo Parku. 😉

Top

Hodnocení

Oblíbené