We maken CoderForge-Preview open-source — 258K test-geverifieerde coding-agent trajecten (155K geslaagd | 103K mislukt). Het fijn afstemmen van Qwen3-32B op de geslaagde subset verhoogt SWE-bench Geverifieerd: 23,0% → 59,4% pass@1, en het staat op #1 onder open-data modellen ≤32B parameters. Draad over de gegevensgeneratiepipeline 🧵
We hebben drie open taakbronnen gecombineerd en gefilterd → 51K taken over 1.655 repos van: - R2E-Gym: 4.216 taken (9 repos) - SWE-Smith: 37.221 taken (124 repos) - SWE-Rebench: 9.764 taken (1.577 repos)
Opstelling voor trajectgeneratie: - Docent: Qwen3-Coder-480B - Steunstructuur: OpenHands v0.52.1 - Hulpmiddelen: bash-uitvoering, bestandsbewerking, redeneren, voltooiing - Monstername: temp 0.7, top_p 0.8, max_tokens 32.768 - Meerdere trajecten per taak (8 voor R2E‑Gym/SWE‑Rebench, 4 voor SWE‑Smith) - Filtering: voor onze SFT-experimenten behouden we alleen trajecten die tests doorstaan
(filtering + "test-verified"): Filtering: we behouden trajecten waarvan de laatste patch de repo-tests doorstaat. Dat levert 258.134 totale trajecten op, waarvan 155.144 test-passing gebruikt worden voor SFT. We sluiten ook taken uit die overlappen met SWE-bench Verified door (repo, commit) of probleemomschrijving om te decontamineren.
Schaal + efficiëntie: 15,6M API-completies 452B prompttokens 2,9B uitvoertokens 90% cache-hitpercentage Geschatte kosten: ≈$130K
Trainingsinfrastructuur: Basis: Qwen3-32B 64x H100 (8 nodes) FSDP2 + Ulysses sequentiële parallelisme Flash Attention 2 + gradient checkpointing Sequentiepakketten
Resultaten op SWE-bench Geverifieerd (500 problemen): CoderForge-Preview-32B: 59,4% pass@1, 78,56% pass@16 CoderForge-Preview-4B: 43,0% pass@1
Beperkingen: alle trajecten komen van één scaffold/tool stack en voornamelijk bug-fix taken, zonder samenwerking van gebruikers tijdens het traject, dus de overdracht naar andere scaffolds/tools of interactieve instellingen kan afnemen. Volgende: schaal de gegevensgeneratie op (genereer meer taken en trajecten), gebruik meerdere scaffolds/tools/prompt permutaties, en ga verder dan SFT met agentic RL.
We publiceren de dataset en evaluatietraces: - Gegevens: - Traces: - Blog: Gefeliciteerd aan @AlpayAriyak, @QingyangWu1, en @ZhongzhuZhou!!
115