Vi åpner CoderForge-Preview — 258K testverifiserte kodeagent-trajektorier (155K bestått | 103K stryk). Finjustering av Qwen3-32B på passing-subset øker SWE-benken Verified: 23,0 % → 59,4 % pass@1, og den rangerer som #1 blant åpne datamodeller ≤32 milliarder parametere. Tråd på datagenereringspipelinen 🧵
Vi kombinerte og filtrerte tre åpne oppgavekilder → 51 000 oppgaver fordelt på 1 655 repoer fra: - R2E-Gym: 4 216 oppgaver (9 repos) - SWE-Smith: 37 221 oppgaver (124 repos) - SWE-Rebench: 9 764 oppgaver (1 577 repos)
Oppsett for trajektorigenerering: - Lærer: Qwen3-Coder-480B - Stillas: OpenHands v0.52.1 - Verktøy: bash-utførelse, filredigering, resonnement, fullføring - Prøvetaking: temperatur 0,7, top_p 0,8, max_tokens 32 768 - Flere trajektorier per oppgave (8 for R2E-Gym/SWE-Rebench, 4 for SWE-Smith) - Filtrering: for våre SFT-eksperimenter beholder vi kun baner som består tester
(filtrering + "test-verifisert"): Filtrering: vi beholder trajektorier hvis siste patch består repo-tester. Det gir totalt 258 134 trajektorier, hvorav 155 144 bestått tester brukt for SFT. Vi ekskluderer også oppgaver som overlapper SWE-benken Verifisert ved (repo, commit) eller problembeskrivelse for dekontaminering.
Skalering + effektivitet: 15.6M API-fullføringer 452B prompt-tokens 2,9 milliarder utgangstokens 90 % cache-treffrate Anslått kostnad: 130 000 dollar ≈
Opplæringsinfrastruktur: Base: Qwen3-32B 64x H100 (8 noder) FSDP2 + Ulysses-sekvensparallellisme Flash Attention 2 + gradientsjekkpunkt Sekvenspakking
Resultater på SWE-benken verifisert (500 utgaver): CoderForge-Preview-32B: 59,4 % pass@1, 78,56 % pass@16 CoderForge-Preview-4B: 43,0 % pass@1
Begrensninger: alle trajektorier kommer fra én stillas-/verktøystabel og består stort sett av feilrettingsoppgaver, uten samarbeid mellom brukere midt i trajektoriet, så overføring til andre stillas/verktøy eller interaktive innstillinger kan forfalle. Neste: skaler opp datagenereringen (generer flere oppgaver og trajektorier), bruk flere stillas/verktøy/prompt-permutasjoner, og gå utover SFT med agentisk RL.
Vi publiserer datasettet og evalueringssporene: - Data: - Spor: - Blogg: Gratulerer til @AlpayAriyak, @QingyangWu1 og @ZhongzhuZhou!!
85