Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Právě jsem si přečetl tento nový článek, který mi úplně rozbil mozek 🤯
Výzkumníci přišli na to, jak přenášet adaptéry LoRA mezi zcela odlišnými modely umělé inteligence bez jakýchkoli trénovacích dat, a funguje to lépe než metody, které vyžadují obrovské datové sady.
Jmenuje se TITOK a tady je ta divoká část:
Místo toho, aby vše kopírovali ze zdrojového modelu, přenášejí pouze tokeny, na kterých skutečně záleží. Dělají to tak, že porovnávají model s LoRA a bez něj, aby zjistili, kde adaptér přidává skutečnou hodnotu.
Přemýšlejte o tom takto: pokud je váš vyladěný model jistý tokenem, ale základní model ne, tento token obsahuje znalosti, které chcete přenést.
Výsledky jsou šílené:
+8% lepší než vanilkové modely
+6 % lepší než tradiční destilace znalostí
+4.4% lepší než TransLoRA
A funguje to v divokých scénářích:
→ Mistral až Llama (různé rodiny)
→ modely 3B až 8B (různé velikosti)
→ lama 2 až lama 3 (různé verze)
Vražedná výhoda? Nejsou potřeba žádné další modely. TransLoRA vyžaduje trénování samostatného diskriminátoru právě pro filtrování syntetických dat. TITOK používá k identifikaci důležitých tokenů samotný zdrojový model.
Ještě šílenější: automaticky zpracovávají různé tokenizátory. Když modely rozdělí text odlišně, jejich algoritmus tokeny zarovná a rozšíří skóre důležitosti přes mezeru.
To není jen akademické. Pokaždé, když vyjde nový model, vaše vyladěné adaptéry zastarají. TITOK znamená, že můžete přenést tyto těžce nabyté znalosti na jakoukoli novou páteř během hodin, nikoli týdnů.
Prostě jsme přešli od "každý model potřebuje svůj vlastní adaptér" k "znalosti volně proudí mezi modely".
...

Top
Hodnocení
Oblíbené