Nejtěžší otevřenou otázkou pro kontinuální učení je najít správné benchmarky a produktové zkušenosti pro destilaci kontextu
Existuje poměrně omezený seznam metod, které byste chtěli zvážit, a které mají v různých režimech své kompromisy. Jen zatím není úplně jasné, jak je porovnat mezi sebou, nebo jaký konkrétní problém byste původně nasadili řešení
Jeden extrém: "kontinuální" učení na šestiměsíčních diskrétních blocích, pro plné intuitivní poznání světa Opravdu očekáváme, že bude něco lepšího než pokračovat v celointernetovém před/středním tréninku + opakování normálního tréninku po tréninku?
Jasně, možná můžete udělat váhové sloučení starého posttrénovaného checkpointu s novým CPT checkpointem, abyste ušetřili, možná můžete CPT jen u určitých vrstev/expertů, a mohli bychom draze experimentovat, která verze je nejpraktičtější, ale designový prostor je známý
Pod pojmem "kontextová destilace" myslím, že budete chtít automatický pipeline, který přijímá informační výpisy (přepisy chatů, webové texty, historie repozitářů) a upravuje je do něčeho užitečnějšího pro střední/post-trénink než v surové formě (např. základní otázky a odpovědi).
106