RL — це потужний механізм для навчання моделей, специфічних для компанії, їхній унікальній роботі та даних. Саме цим ми займаємося в Applied Compute. Ключовий виклик — зробити RL ефективним, адже нам потрібно, щоб заїзди були швидкими (доставлялися за кілька днів), дешевими (масштабована економіка одиниць) і передбачуваними (не просто швидкими, а надійно швидкими). Ось кілька висновків: • Синхронний RL марнотратний час і обчислення. • Асинхронний RL є ефективнішим, але призводить до застояності, що спричиняє нестабільність навчання. • Моделювання та симуляції можуть допомогти аналітично визначити, яка конфігурація веде до оптимальної ефективності. Це дозволяє нам швидко прототипувати навчальні конфігурації, не витрачаючи дорогі обчислювальні цикли під час пробних запусків. Двоє наших співзасновників, @rhythmrg та @lindensli, нещодавно обговорювали деякі з цих досліджень на @aiDotEngineer, зосереджуючись на такій підпроблемі: який найбільший спосіб реалізації RL за умови максимальної затримки та бюджету на обчислення?