Sklep DApp | Centrum Web3 dla wydarzeń i gier

Popularne tematy

Ostatnio myślałem trochę o ciągłym uczeniu, szczególnie w kontekście długoterminowych agentów (i przeprowadzając kilka prostych eksperymentów z MLX). Status quo kompresji podpowiedzi w połączeniu z rekurencyjnymi pod-agentami jest w rzeczywistości niezwykle skuteczne. Wydaje się, że możemy zajść naprawdę daleko z tym. (Kompresja podpowiedzi = gdy okno kontekstowe zbliża się do pełności, model generuje krótsze podsumowanie, a następnie zaczyna od nowa, używając podsumowania. Rekurencyjni pod-agenci = dekompozycja zadań na mniejsze zadania, aby poradzić sobie z ograniczonymi oknami kontekstowymi) Rekurencyjni pod-agenci prawdopodobnie zawsze będą użyteczni. Ale kompresja podpowiedzi wydaje się być trochę nieefektywnym (choć bardzo skutecznym) hackiem. Są dwie inne alternatywy, które znam: 1. fine-tuning online i 2. techniki oparte na pamięci. Fine-tuning online: trenowanie adapterów LoRA na danych, które model napotyka podczas wdrożenia. Ogólnie jestem mniej optymistyczny w tej kwestii. Poza wyzwaniami inżynieryjnymi związanymi z wdrażaniem niestandardowych modeli/adapterów dla każdego przypadku użycia/użytkownika, istnieje kilka fundamentalnych problemów: - Fine-tuning online jest z natury niestabilny. Jeśli trenujesz na danych w docelowej dziedzinie, możesz katastrofalnie zniszczyć zdolności, których nie celujesz. Jednym ze sposobów na to jest utrzymanie mieszanych zbiorów danych z nowymi i starymi. Ale to szybko staje się dość skomplikowane. - Jak w ogóle wyglądają dane do fine-tuningu online? Czy generujesz pary Q/A na podstawie docelowej dziedziny, aby trenować model? Masz również problem z priorytetowaniem informacji w mieszance danych, biorąc pod uwagę ograniczoną pojemność. Techniki oparte na pamięci: zasadniczo polityka utrzymywania użytecznej pamięci i odrzucania tego, co nie jest potrzebne. To bardziej przypomina sposób, w jaki ludzie zachowują informacje: "użyj tego lub stracisz to". Potrzebujesz tylko kilku rzeczy, aby to działało: - Polityka usuwania/utrzymania. Coś w stylu "utrzymaj pamięć, jeśli była dostępna przynajmniej raz w ciągu ostatnich 10k tokenów". - Polityka musi być efektywnie obliczalna - Miejsce, w którym model może przechowywać i uzyskiwać dostęp do długoterminowej pamięci. Może rzadko używana pamięć KV byłaby wystarczająca. Ale dla efektywnego dostępu do dużej pamięci, hierarchiczna struktura danych mogłaby być lepsza.

Najlepsze

Ranking

Ulubione