Jesteś na rozmowie kwalifikacyjnej na stanowisko naukowca badawczego w Google. Interviewer: Mamy bazowy LLM, który jest okropny w matematyce. Jak przekształciłbyś go w potęgę matematyczną i logiczną? Ty: Oznaczę kilka problemów i dostosuję model. Rozmowa zakończona. Oto, co przegapiłeś:
Gdy wyniki są weryfikowalne, etykiety stają się opcjonalne. Matematyka, kod i logika mogą być automatycznie sprawdzane i weryfikowane. Wykorzystajmy ten fakt, aby zbudować model rozumowania bez ręcznego etykietowania. Użyjemy: - @UnslothAI do efektywnego dostrajania parametrów. - @HuggingFace TRL do zastosowania GRPO. Zaczynajmy! 🚀
Czym jest GRPO? Group Relative Policy Optimization to metoda uczenia przez wzmocnienie, która dostosowuje LLM do zadań matematycznych i rozumowania, wykorzystując deterministyczne funkcje nagrody, eliminując potrzebę danych oznaczonych. Oto krótki przegląd GRPO, zanim przejdziemy do kodu:
1️⃣ Załaduj model Zaczynamy od załadowania Qwen3-4B-Base i jego tokenizera za pomocą Unsloth. Możesz użyć tutaj dowolnego innego modelu LLM o otwartych wagach. Sprawdź to 👇
2️⃣ Zdefiniuj konfigurację LoRA Użyjemy LoRA, aby uniknąć dostrajania całych wag modelu. W tym kodzie korzystamy z PEFT Unslotha, określając: - Model - Niski ranga LoRA (r) - Moduły do dostrajania itp. Sprawdź to 👇
3️⃣ Utwórz zbiór danych Ładujemy zbiór danych Open R1 Math (zbiór danych z problemami matematycznymi) i formatujemy go do rozumowania. Każda próbka zawiera: - Systemowy komunikat wymuszający strukturalne rozumowanie - Pytanie z zestawu danych - Odpowiedź w wymaganym formacie Sprawdź ten kod 👇
4️⃣ Zdefiniuj funkcje nagród W GRPO używamy deterministycznych funkcji do walidacji odpowiedzi i przyznawania nagrody. Nie wymagana ręczna etykietowanie! Funkcje nagród: - Dokładnie dopasuj format - Przybliżone dopasowanie formatu - Sprawdź odpowiedź - Sprawdź liczby Sprawdź to 👇
5️⃣ Użyj GRPO i zacznij trening Teraz, gdy mamy gotowy zbiór danych i funkcje nagród, czas zastosować GRPO. HuggingFace TRL zapewnia wszystko, co opisaliśmy w diagramie GRPO, od razu, w postaci GRPOConfig i GRPOTrainer. Sprawdź to👇
6️⃣ Porównanie Ponownie możemy zobaczyć, jak GRPO przekształciło model bazowy w potęgę rozumowania. Sprawdź to👇
Zanim zakończymy, pozwól, że poruszę ważne pytanie: Kiedy powinieneś używać wzmocnionego dostrajania (RFT) w porównaniu do nadzorowanego dostrajania (SFT)? Stworzyłem ten diagram, aby udzielić odpowiedzi:
157,41K