Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Olemme avoimen lähdekoodin CoderForge-Preview — 258K testin varmennettua koodausagentin trajektorioita (155K läpäisy | 103K epäonnistuminen).
Qwen3-32B:n hienosäätö läpäisyosajoukolle parantaa SWE-bench Verifiedia: 23,0 % → 59,4 % pass@1, ja se sijoittuu #1 avoimen datan mallien ≤32B-parametrien joukossa.
Säie datan generointiputkessa 🧵

Yhdistimme ja suodatimme kolme avointa tehtävälähdettä → 51 000 tehtävää 1 655 repositioon liittyen:
- R2E-Gym: 4 216 tehtävää (9 repoa)
- SWE-Smith: 37 221 tehtävää (124 repoa)
- SWE-Rebench: 9 764 tehtävää (1 577 repoa)
Lentoradan generoinnin asetelma:
- Opettaja: Qwen3-Coder-480B
- Tukirakenteet: OpenHands v0.52.1
- Työkalut: bash-suoritus, tiedostojen editointi, päättely, viimeistely
- Näytteenotto: lämpötila 0,7, top_p 0,8, max_tokens 32 768
- Useita lentoratoja per tehtävä (8 R2E-Gym/SWE-Rebenchille, 4 SWE-Smithille)
- Suodatus: SFT-kokeissamme säilytämme vain radat, jotka läpäisevät testit
(suodatus + "testattu vahvistettu"):
Suodatus: säilytämme radat, joiden viimeinen päivitys läpäisee repo-testit. Tämä tarkoittaa yhteensä 258 134 lentorataa, joista 155 144 on käytetty SFT:ssä.
Suljemme myös pois tehtävät, jotka menevät päällekkäin SWE-bench Verified by (repo, commit) tai issue-kuvaus desontaminaatiota varten.
Mittakaava + tehokkuus:
15,6M API-täydennykset
452B-kehotustokenit
2,9B lähtötokenit
90 % välimuistin osumaprosentti
Arvioitu kustannus: ≈130 000 dollaria
Koulutusinfrastruktuuri:
Pohja: Qwen3-32B
64x H100 (8 solmua)
FSDP2 + Ulysses-sekvenssin rinnakkaisuus
Flash Attention 2 + liukuvärin tarkistuspisteet
Sekvenssipakkaus
SWE-bench Verified -tulokset (500 numeroa):
CoderForge-Preview-32B: 59,4 % pass@1, 78,56 % pass@16
CoderForge-Preview-4B: 43,0 % pass@1
Rajoitukset: kaikki kehityskulut tulevat yhdestä tukirakenteesta/työkalupinosta ja pääasiassa virhekorjaustehtävissä, ilman keskivaiheen käyttäjäyhteistyötä, joten siirto muihin tukirakenteisiin/työkaluihin tai interaktiivisiin asetuksiin voi jäädä pois.
Seuraavaksi: skaalaa datan generointia (luo lisää tehtäviä ja lentoratoja), käytä useita tukirakenteita/työkaluja/prompt-permutaatioita ja mennä SFT:n ulkopuolelle agentin RL:llä.
Julkaisemme aineiston ja arviointijäljet:
- Data:
- Jäljet:
- Blogi:
Onnittelut @AlpayAriyak:lle, @QingyangWu1:lle ja @ZhongzhuZhou!!
86
Johtavat
Rankkaus
Suosikit
