Stiamo aprendo il codice sorgente di CoderForge-Preview — 258K traiettorie di agenti di codifica verificate tramite test (155K pass | 103K fall). Il fine-tuning di Qwen3-32B sul sottoinsieme di passaggio aumenta SWE-bench Verified: 23.0% → 59.4% pass@1, e si classifica al #1 tra i modelli open-data ≤32B parametri. Discussione sul pipeline di generazione dei dati 🧵
Abbiamo combinato e filtrato tre fonti di compiti aperti → 51K compiti in 1.655 repository da: - R2E-Gym: 4.216 compiti (9 repository) - SWE-Smith: 37.221 compiti (124 repository) - SWE-Rebench: 9.764 compiti (1.577 repository)
Impostazione della generazione della traiettoria: - Insegnante: Qwen3-Coder-480B - Struttura: OpenHands v0.52.1 - Strumenti: esecuzione bash, modifica file, ragionamento, completamento - Campionamento: temp 0.7, top_p 0.8, max_tokens 32.768 - Più traiettorie per compito (8 per R2E‑Gym/SWE‑Rebench, 4 per SWE‑Smith) - Filtraggio: per i nostri esperimenti SFT, manteniamo solo le traiettorie che superano i test
(filtraggio + "test-verificato"): Filtraggio: manteniamo le traiettorie il cui patch finale supera i test del repository. Questo porta a un totale di 258.134 traiettorie, con 155.144 che superano il test utilizzate per SFT. Escludiamo anche i compiti che si sovrappongono a SWE-bench Verificato da (repository, commit) o descrizione del problema per decontaminare.
Scala + efficienza: 15,6M completamenti API 452B token di prompt 2,9B token di output 90% tasso di hit della cache Costo stimato: ≈$130K
Infrastruttura di addestramento: Base: Qwen3-32B 64x H100 (8 nodi) FSDP2 + parallelismo sequenziale Ulysses Flash Attention 2 + checkpointing del gradiente Imballaggio della sequenza
Risultati su SWE-bench Verificati (500 problemi): CoderForge-Preview-32B: 59,4% pass@1, 78,56% pass@16 CoderForge-Preview-4B: 43,0% pass@1
Limitazioni: tutte le traiettorie provengono da un unico scaffold/tool stack e principalmente da attività di bug-fix, senza collaborazione degli utenti a metà traiettoria, quindi il trasferimento ad altri scaffold/tool o impostazioni interattive potrebbe diminuire. Prossimo: aumentare la generazione di dati (generare più attività e traiettorie), utilizzare più scaffold/tool/permutazioni di prompt e andare oltre SFT con RL agentico.
Rilasciamo il dataset e le tracce di valutazione: - Dati: - Tracce: - Blog: Congratulazioni a @AlpayAriyak, @QingyangWu1 e @ZhongzhuZhou!!
119