Olemme avoimen lähdekoodin CoderForge-Preview — 258K testin varmennettua koodausagentin trajektorioita (155K läpäisy | 103K epäonnistuminen). Qwen3-32B:n hienosäätö läpäisyosajoukolle parantaa SWE-bench Verifiedia: 23,0 % → 59,4 % pass@1, ja se sijoittuu #1 avoimen datan mallien ≤32B-parametrien joukossa. Säie datan generointiputkessa 🧵
Yhdistimme ja suodatimme kolme avointa tehtävälähdettä → 51 000 tehtävää 1 655 repositioon liittyen: - R2E-Gym: 4 216 tehtävää (9 repoa) - SWE-Smith: 37 221 tehtävää (124 repoa) - SWE-Rebench: 9 764 tehtävää (1 577 repoa)
Lentoradan generoinnin asetelma: - Opettaja: Qwen3-Coder-480B - Tukirakenteet: OpenHands v0.52.1 - Työkalut: bash-suoritus, tiedostojen editointi, päättely, viimeistely - Näytteenotto: lämpötila 0,7, top_p 0,8, max_tokens 32 768 - Useita lentoratoja per tehtävä (8 R2E-Gym/SWE-Rebenchille, 4 SWE-Smithille) - Suodatus: SFT-kokeissamme säilytämme vain radat, jotka läpäisevät testit
(suodatus + "testattu vahvistettu"): Suodatus: säilytämme radat, joiden viimeinen päivitys läpäisee repo-testit. Tämä tarkoittaa yhteensä 258 134 lentorataa, joista 155 144 on käytetty SFT:ssä. Suljemme myös pois tehtävät, jotka menevät päällekkäin SWE-bench Verified by (repo, commit) tai issue-kuvaus desontaminaatiota varten.
Mittakaava + tehokkuus: 15,6M API-täydennykset 452B-kehotustokenit 2,9B lähtötokenit 90 % välimuistin osumaprosentti Arvioitu kustannus: ≈130 000 dollaria
Koulutusinfrastruktuuri: Pohja: Qwen3-32B 64x H100 (8 solmua) FSDP2 + Ulysses-sekvenssin rinnakkaisuus Flash Attention 2 + liukuvärin tarkistuspisteet Sekvenssipakkaus
SWE-bench Verified -tulokset (500 numeroa): CoderForge-Preview-32B: 59,4 % pass@1, 78,56 % pass@16 CoderForge-Preview-4B: 43,0 % pass@1
Rajoitukset: kaikki kehityskulut tulevat yhdestä tukirakenteesta/työkalupinosta ja pääasiassa virhekorjaustehtävissä, ilman keskivaiheen käyttäjäyhteistyötä, joten siirto muihin tukirakenteisiin/työkaluihin tai interaktiivisiin asetuksiin voi jäädä pois. Seuraavaksi: skaalaa datan generointia (luo lisää tehtäviä ja lentoratoja), käytä useita tukirakenteita/työkaluja/prompt-permutaatioita ja mennä SFT:n ulkopuolelle agentin RL:llä.
Julkaisemme aineiston ja arviointijäljet: - Data: - Jäljet: - Blogi: Onnittelut @AlpayAriyak:lle, @QingyangWu1:lle ja @ZhongzhuZhou!!
86