Abbiamo addestrato Composer a riassumere autonomamente attraverso RL invece di un prompt. Questo riduce l'errore da compattamento del 50% e consente a Composer di avere successo in compiti di codifica impegnativi che richiedono centinaia di azioni.