RL — это мощный механизм для обучения моделей, специфичных для компании, на их уникальной работе и данных. Это то, что мы делаем в Applied Compute. Ключевая задача заключается в том, как сделать RL эффективным, потому что нам нужны быстрые запуски (доставляемые за дни), дешевые (масштабируемая экономика) и предсказуемые (не просто быстрые, но и надежно быстрые). Вот некоторые выводы: • Синхронный RL тратит время и вычислительные ресурсы. • Асинхронный RL более эффективен, но вводит устаревание, что вызывает нестабильность обучения. • Моделирование и симуляции могут помочь аналитически решить, какая конфигурация приводит к оптимальной эффективности. Это позволяет нам быстро прототипировать конфигурации обучения, не тратя дорогие вычислительные циклы на пробные запуски. Два из наших соучредителей, @rhythmrg и @lindensli, недавно обсудили некоторые из этих исследований на @aiDotEngineer, сосредоточившись на следующей подзадаче: каков самый высокий пропускной способ выполнения RL с учетом максимального устаревания и бюджета на вычисления?