Vi öppnar CoderForge-Preview öppen källkod — 258K testverifierade kodagenttrajektorier (155K godkänt | 103K underkänt). Finjustering av Qwen3-32B på passningsdelen ökar SWE-bänken Verified: 23,0 % → 59,4 % pass@1, och den rankas #1 bland öppna datamodeller ≤32 miljarder parametrar. Tråd på datagenereringspipelinen 🧵
Vi kombinerade och filtrerade tre öppna uppgiftskällor → 51 000 uppgifter fördelade på 1 655 repos från: - R2E-Gym: 4 216 uppgifter (9 repos) - SWE-Smith: 37 221 uppgifter (124 repos) - SWE-Rebench: 9 764 uppgifter (1 577 repos)
Uppsättning av bangenerering: - Lärare: Qwen3-Coder-480B - Ställning: OpenHands v0.52.1 - Verktyg: bash-exekvering, filredigering, resonemang, komplettering - Provtagning: temperatur 0,7, top_p 0,8, max_tokens 32 768 - Flera banor per uppgift (8 för R2E-Gym/SWE-Rebench, 4 för SWE-Smith) - Filtrering: för våra SFT-experiment behåller vi endast banor som klarar tester
(filtrering + "testverifierad"): Filtrering: vi behåller banor vars slutliga patch klarar repo-tester. Det ger totalt 258 134 banor, varav 155 144 testgodkända för SFT. Vi utesluter också uppgifter som överlappar SWE-bench Verified by (repo, commit) eller issue description för dekontaminering.
Skala + effektivitet: 15.6M API-kompletteringar 452B-prompttokens 2,9 miljarder utmatningstoken 90% cacheträfffrekvens Uppskattad kostnad: 130 000 ≈ dollar
Utbildningsinfrastruktur: Bas: Qwen3-32B 64x H100 (8 noder) FSDP2 + Ulysses-sekvensparallellism Flash Attention 2 + gradientkontrollpunkt Sekvenspackning
Resultat på SWE-bench verifierade (500 nummer): CoderForge-Preview-32B: 59,4 % pass@1, 78,56 % pass@16 CoderForge-Preview-4B: 43,0 % pass@1
Begränsningar: alla banor kommer från en och samma byggnads-/verktygsstack och består mestadels av buggfixar, utan samarbete mellan användarna, så överföring till andra ställningar/verktyg eller interaktiva miljöer kan försvinna. Nästa: skala upp datagenereringen (generera fler uppgifter och banor), använd flera ställningar/verktyg/prompt-permutationer och gå bortom SFT med agentisk RL.
Vi släpper datamängden och utvärderingsspåren: - Data: - Spår: - Blogg: Grattis till @AlpayAriyak, @QingyangWu1 och @ZhongzhuZhou!!
83