Wir geben CoderForge-Preview als Open Source frei – 258K testverifizierte Coding-Agent-Trajektorien (155K bestanden | 103K nicht bestanden). Das Feintuning von Qwen3-32B auf dem bestandenen Teil erhöht SWE-bench Verified: 23,0 % → 59,4 % pass@1, und es belegt den 1. Platz unter den Open-Data-Modellen mit ≤32B Parametern. Thread zur Daten-Generierungspipeline 🧵
Wir haben drei offene Aufgabenquellen kombiniert und gefiltert → 51K Aufgaben aus 1.655 Repos von: - R2E-Gym: 4.216 Aufgaben (9 Repos) - SWE-Smith: 37.221 Aufgaben (124 Repos) - SWE-Rebench: 9.764 Aufgaben (1.577 Repos)
Einrichtung der Trajektoriegenerierung: - Lehrer: Qwen3-Coder-480B - Gerüst: OpenHands v0.52.1 - Werkzeuge: bash-Ausführung, Dateibearbeitung, Schlussfolgerungen, Vervollständigung - Sampling: temp 0.7, top_p 0.8, max_tokens 32.768 - Mehrere Trajektorien pro Aufgabe (8 für R2E‑Gym/SWE‑Rebench, 4 für SWE‑Smith) - Filterung: Für unsere SFT-Experimente behalten wir nur Trajektorien, die Tests bestehen.
(Filtern + "test-verifiziert"): Filtern: Wir behalten Trajektorien, deren letzter Patch die Repo-Tests besteht. Das ergibt insgesamt 258.134 Trajektorien, von denen 155.144 testbeständig für SFT verwendet werden. Wir schließen auch Aufgaben aus, die mit SWE-bench über (Repo, Commit) oder die Problembeschreibung überlappen, um zu dekontaminieren.
Skalierung + Effizienz: 15,6M API-Abschlüsse 452B Eingabetokens 2,9B Ausgabetokens 90% Cache-Trefferquote Geschätzte Kosten: ≈130.000 $
Trainingsinfrastruktur: Basis: Qwen3-32B 64x H100 (8 Knoten) FSDP2 + Ulysses-Sequenzparallelismus Flash Attention 2 + Gradient-Checkpointing Sequenz-Packing
Ergebnisse auf SWE-bench Verifiziert (500 Probleme): CoderForge-Preview-32B: 59,4% pass@1, 78,56% pass@16 CoderForge-Preview-4B: 43,0% pass@1
Einschränkungen: Alle Trajektorien stammen von einem einzigen Gerüst/Werkzeugstapel und bestehen hauptsächlich aus Bugfix-Aufgaben, ohne mid-Trajektorie Benutzerzusammenarbeit, sodass der Transfer zu anderen Gerüsten/Werkzeugen oder interaktiven Einstellungen möglicherweise abnimmt. Nächste Schritte: Datenproduktion skalieren (mehr Aufgaben und Trajektorien generieren), mehrere Gerüste/Werkzeuge/Prompt-Variationen verwenden und über SFT mit agentischem RL hinausgehen.
Wir veröffentlichen den Datensatz und die Evaluierungsspuren: - Daten: - Spuren: - Blog: Herzlichen Glückwunsch an @AlpayAriyak, @QingyangWu1 und @ZhongzhuZhou!!
121