Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Stiamo aprendo il codice sorgente di CoderForge-Preview — 258K traiettorie di agenti di codifica verificate tramite test (155K pass | 103K fall).
Il fine-tuning di Qwen3-32B sul sottoinsieme di passaggio aumenta SWE-bench Verified: 23.0% → 59.4% pass@1, e si classifica al #1 tra i modelli open-data ≤32B parametri.
Discussione sul pipeline di generazione dei dati 🧵

Abbiamo combinato e filtrato tre fonti di compiti aperti → 51K compiti in 1.655 repository da:
- R2E-Gym: 4.216 compiti (9 repository)
- SWE-Smith: 37.221 compiti (124 repository)
- SWE-Rebench: 9.764 compiti (1.577 repository)
Impostazione della generazione della traiettoria:
- Insegnante: Qwen3-Coder-480B
- Struttura: OpenHands v0.52.1
- Strumenti: esecuzione bash, modifica file, ragionamento, completamento
- Campionamento: temp 0.7, top_p 0.8, max_tokens 32.768
- Più traiettorie per compito (8 per R2E‑Gym/SWE‑Rebench, 4 per SWE‑Smith)
- Filtraggio: per i nostri esperimenti SFT, manteniamo solo le traiettorie che superano i test
(filtraggio + "test-verificato"):
Filtraggio: manteniamo le traiettorie il cui patch finale supera i test del repository. Questo porta a un totale di 258.134 traiettorie, con 155.144 che superano il test utilizzate per SFT.
Escludiamo anche i compiti che si sovrappongono a SWE-bench Verificato da (repository, commit) o descrizione del problema per decontaminare.
Scala + efficienza:
15,6M completamenti API
452B token di prompt
2,9B token di output
90% tasso di hit della cache
Costo stimato: ≈$130K
Infrastruttura di addestramento:
Base: Qwen3-32B
64x H100 (8 nodi)
FSDP2 + parallelismo sequenziale Ulysses
Flash Attention 2 + checkpointing del gradiente
Imballaggio della sequenza
Risultati su SWE-bench Verificati (500 problemi):
CoderForge-Preview-32B: 59,4% pass@1, 78,56% pass@16
CoderForge-Preview-4B: 43,0% pass@1
Limitazioni: tutte le traiettorie provengono da un unico scaffold/tool stack e principalmente da attività di bug-fix, senza collaborazione degli utenti a metà traiettoria, quindi il trasferimento ad altri scaffold/tool o impostazioni interattive potrebbe diminuire.
Prossimo: aumentare la generazione di dati (generare più attività e traiettorie), utilizzare più scaffold/tool/permutazioni di prompt e andare oltre SFT con RL agentico.
Rilasciamo il dataset e le tracce di valutazione:
- Dati:
- Tracce:
- Blog:
Congratulazioni a @AlpayAriyak, @QingyangWu1 e @ZhongzhuZhou!!
119
Principali
Ranking
Preferiti
