Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Nejtěžší otevřenou otázkou pro kontinuální učení je najít správné benchmarky a produktové zkušenosti pro destilaci kontextu
Existuje poměrně omezený seznam metod, které byste chtěli zvážit, a které mají v různých režimech své kompromisy. Jen zatím není úplně jasné, jak je porovnat mezi sebou, nebo jaký konkrétní problém byste původně nasadili řešení
Jeden extrém: "kontinuální" učení na šestiměsíčních diskrétních blocích, pro plné intuitivní poznání světa
Opravdu očekáváme, že bude něco lepšího než pokračovat v celointernetovém před/středním tréninku + opakování normálního tréninku po tréninku?
Jasně, možná můžete udělat váhové sloučení starého posttrénovaného checkpointu s novým CPT checkpointem, abyste ušetřili, možná můžete CPT jen u určitých vrstev/expertů, a mohli bychom draze experimentovat, která verze je nejpraktičtější, ale designový prostor je známý
Pod pojmem "kontextová destilace" myslím, že budete chtít automatický pipeline, který přijímá informační výpisy (přepisy chatů, webové texty, historie repozitářů) a upravuje je do něčeho užitečnějšího pro střední/post-trénink než v surové formě (např. základní otázky a odpovědi).
106
Top
Hodnocení
Oblíbené
