Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ostatnio myślałem trochę o ciągłym uczeniu, szczególnie w kontekście długoterminowych agentów (i przeprowadzając kilka prostych eksperymentów z MLX).
Status quo kompresji podpowiedzi w połączeniu z rekurencyjnymi pod-agentami jest w rzeczywistości niezwykle skuteczne. Wydaje się, że możemy zajść naprawdę daleko z tym. (Kompresja podpowiedzi = gdy okno kontekstowe zbliża się do pełności, model generuje krótsze podsumowanie, a następnie zaczyna od nowa, używając podsumowania. Rekurencyjni pod-agenci = dekompozycja zadań na mniejsze zadania, aby poradzić sobie z ograniczonymi oknami kontekstowymi)
Rekurencyjni pod-agenci prawdopodobnie zawsze będą użyteczni. Ale kompresja podpowiedzi wydaje się być trochę nieefektywnym (choć bardzo skutecznym) hackiem.
Są dwie inne alternatywy, które znam: 1. fine-tuning online i 2. techniki oparte na pamięci.
Fine-tuning online: trenowanie adapterów LoRA na danych, które model napotyka podczas wdrożenia. Ogólnie jestem mniej optymistyczny w tej kwestii. Poza wyzwaniami inżynieryjnymi związanymi z wdrażaniem niestandardowych modeli/adapterów dla każdego przypadku użycia/użytkownika, istnieje kilka fundamentalnych problemów:
- Fine-tuning online jest z natury niestabilny. Jeśli trenujesz na danych w docelowej dziedzinie, możesz katastrofalnie zniszczyć zdolności, których nie celujesz. Jednym ze sposobów na to jest utrzymanie mieszanych zbiorów danych z nowymi i starymi. Ale to szybko staje się dość skomplikowane.
- Jak w ogóle wyglądają dane do fine-tuningu online? Czy generujesz pary Q/A na podstawie docelowej dziedziny, aby trenować model? Masz również problem z priorytetowaniem informacji w mieszance danych, biorąc pod uwagę ograniczoną pojemność.
Techniki oparte na pamięci: zasadniczo polityka utrzymywania użytecznej pamięci i odrzucania tego, co nie jest potrzebne. To bardziej przypomina sposób, w jaki ludzie zachowują informacje: "użyj tego lub stracisz to". Potrzebujesz tylko kilku rzeczy, aby to działało:
- Polityka usuwania/utrzymania. Coś w stylu "utrzymaj pamięć, jeśli była dostępna przynajmniej raz w ciągu ostatnich 10k tokenów".
- Polityka musi być efektywnie obliczalna
- Miejsce, w którym model może przechowywać i uzyskiwać dostęp do długoterminowej pamięci. Może rzadko używana pamięć KV byłaby wystarczająca. Ale dla efektywnego dostępu do dużej pamięci, hierarchiczna struktura danych mogłaby być lepsza.
Najlepsze
Ranking
Ulubione
