Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Nous partageons un aperçu précoce de notre formation en cours SWE-1.6.
Elle améliore considérablement SWE-1.5 tout en étant post-entraînée sur le même modèle pré-entraîné - et elle fonctionne aussi rapidement à 950 tok/s. Sur SWE-Bench Pro, elle dépasse les meilleurs modèles open-source.
Le modèle d'aperçu présente encore certains comportements indésirables comme la sur-analyse et l'auto-vérification excessive, que nous visons à améliorer. Nous déployons un accès anticipé à un petit sous-ensemble d'utilisateurs dans Windsurf.

Nous avons affiné notre recette RL et étendu notre infrastructure pour débloquer deux ordres de grandeur de puissance de calcul supplémentaires par rapport à celle utilisée pour entraîner SWE-1.5. Nous avons considérablement augmenté le nombre d'environnements RL et constatons des améliorations continues avec un entraînement RL supplémentaire.

Il a été amusant d'observer le modèle apprendre à réfléchir plus intensément et à itérer davantage sur des problèmes difficiles de SWE-Bench Pro. D'un autre côté, nous observons une sur-analyse et une auto-vérification excessive dans notre propre utilisation interne.
Trouver le bon équilibre entre interactivité et réflexion à long terme est un domaine de recherche actif.

Nous avons optimisé notre pile d'entraînement pour fonctionner 6 fois plus vite qu'il y a 3 mois. Par exemple, notre algorithme tolère désormais une plus grande obsolescence, ce qui nous a permis d'utiliser pleinement nos moteurs d'inférence.
Dans notre article de blog (), nous partageons plus de détails sur nos optimisations d'entraînement et comment nous gérons l'allocation des GPU pour le RL asynchrone.

130
Meilleurs
Classement
Favoris
