У нас серьезная проблема с дообучением. Каждый, кто пытается сегодня сделать SFT или RL, оказывается в одном из двух крайностей: 1. "Простые в использовании" API, которые почти не дают контроля над процессом обучения. 2. Полный ад инфраструктуры, где вам приходится иметь дело с контрольными точками, сырыми GPU, повторными попытками, простоями и бесконечными трубопроводами. Между ними очень мало вариантов. Я поговорил с несколькими командами, которым приходится выбирать меньшее из двух зол. Большинство в конечном итоге тратят кучу денег на людей, которые могут справляться с инфраструктурой, потому что у них нет другого выбора. Вот другой альтернативный вариант: Команда HPC-AI только что выпустила SDK для дообучения, который дает вам полный контроль над вашим кодом обучения, не сталкиваясь с адом инфраструктуры: • Вы получаете пользовательские рецепты SFT • RL или RLVR (Обучение с подкреплением с проверяемыми вознаграждениями) • Вы можете использовать свои собственные функции вознаграждения • Вы можете использовать свои собственные циклы обучения Они занимаются всем на стороне инфраструктуры: • Вы никогда не касаетесь конфигураций Kubernetes • Вы никогда не касаетесь планировщиков кластера • Вы никогда не касаетесь предоставления GPU • Вы никогда не касаетесь распределенного трубопровода контрольных точек Это открывает дообучение для многих других команд. Теперь вам больше не нужно выбирать между "слишком простым, чтобы быть полезным" и "настолько сложным, что это кошмар." Ключевая идея здесь очень проста: эта модель отделяет проектирование алгоритмов от инженерии инфраструктуры. Есть еще кое-что: С этой моделью вы платите за токен, а не арендуете GPU по часам и не имеете дело с простаивающими кластерами.
Если вы хотите попробовать это, вы можете зарегистрироваться с кодом, который команда поделилась со мной (встроен в ссылку ниже): Этот код даст вам 10 долларов в виде бесплатных ваучеров (примерно 1,5 миллиона токенов) для запуска вашей первой обучающей задачи. А вот и репозиторий GitHub с SDK: Спасибо команде HPC-AI за сотрудничество со мной в этом посте.
406