У нас серйозна проблема з тонким налаштуванням. Кожен, хто сьогодні намагається займатися SFT або RL, змушений опинитися в одному з двох крайнощів: 1. «Прості у використанні» API, які майже не дають контролю над процесом навчання. 2. Справжнє пекло інфраструктури, де ви маєте справу з контрольними точками, необробленими GPU, повторними спробами, витратами на простою та нескінченними сантехніками. Між ними майже нічого немає. Я спілкувався з кількома командами, які мають обрати менше з цих двох зл. Більшість витрачають купу грошей на людей, які можуть впоратися з інфраструктурою, бо не мають іншого вибору. Ось інша альтернатива: Команда HPC-AI щойно випустила точний SDK, який дає повний контроль над навчальним кодом без проблем з інфраструктурою: • Ви отримуєте індивідуальні рецепти SFT • RL або RLVR (Підкріплене навчання з перевіреними винагородами) • Ви можете використовувати власні функції винагороди • Ви можете використовувати власні тренувальні петлі Вони займаються всім на стороні інфраструктури: • Ви ніколи не чіпаєте конфігурації Kubernetes • Ви ніколи не торкаєтеся планувальників кластерів • Ви ніколи не торкаєтеся налаштування GPU • Ніколи не торкайтеся розподіленої контрольної трубки Це відкриває можливість тонкого налаштування для багатьох команд. Вам більше не потрібно обирати між «занадто просто, щоб бути корисним» і «настільки складним, що це кошмар». Ключова ідея тут дуже проста: ця модель відокремлює проєктування алгоритмів від інженерії інфраструктури. Є ще дещо: У цій моделі ви платите за токен, а не орендуєте GPU погодинно і працюєте з кластерами простою.
Якщо хочете спробувати це, можете зареєструватися з кодом, яким команда поділилася зі мною (вбудований у посилання нижче): Цей код дасть вам $10 у вигляді безкоштовних ваучерів (приблизно 1,5 млн токенів) для виконання вашої першої тренувальної роботи. А ось репозиторій GitHub з SDK: Дякую команді HPC-AI за співпрацю зі мною над цим дописом.
416