Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
RL est un mécanisme puissant pour former des modèles spécifiques à l'entreprise sur leur travail et leurs données uniques. C'est ce que nous faisons chez Applied Compute. Un défi clé est de rendre RL efficace, car nous avons besoin que les exécutions soient rapides (livrées en quelques jours), peu coûteuses (économie d'échelle) et prévisibles (pas seulement rapides, mais de manière fiable rapide). Voici quelques points à retenir :
• Le RL synchrone est une perte de temps et de ressources de calcul.
• Le RL asynchrone est plus efficace mais introduit de l'obsolescence, ce qui entraîne des instabilités d'apprentissage.
• La modélisation et les simulations peuvent aider à résoudre analytiquement quelle configuration mène à une efficacité optimale. Cela nous permet de prototyper rapidement des configurations d'entraînement, sans brûler des cycles de calcul coûteux sur des essais.
Deux de nos co-fondateurs, @rhythmrg et @lindensli, ont discuté de certaines de ces recherches chez @aiDotEngineer récemment, en se concentrant sur le sous-problème suivant : quelle est la manière d'obtenir le meilleur débit pour faire du RL compte tenu d'une obsolescence maximale et d'un budget de calcul ?
Meilleurs
Classement
Favoris

