Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Vi åpner CoderForge-Preview — 258K testverifiserte kodeagent-trajektorier (155K bestått | 103K stryk).
Finjustering av Qwen3-32B på passing-subset øker SWE-benken Verified: 23,0 % → 59,4 % pass@1, og den rangerer som #1 blant åpne datamodeller ≤32 milliarder parametere.
Tråd på datagenereringspipelinen 🧵

Vi kombinerte og filtrerte tre åpne oppgavekilder → 51 000 oppgaver fordelt på 1 655 repoer fra:
- R2E-Gym: 4 216 oppgaver (9 repos)
- SWE-Smith: 37 221 oppgaver (124 repos)
- SWE-Rebench: 9 764 oppgaver (1 577 repos)
Oppsett for trajektorigenerering:
- Lærer: Qwen3-Coder-480B
- Stillas: OpenHands v0.52.1
- Verktøy: bash-utførelse, filredigering, resonnement, fullføring
- Prøvetaking: temperatur 0,7, top_p 0,8, max_tokens 32 768
- Flere trajektorier per oppgave (8 for R2E-Gym/SWE-Rebench, 4 for SWE-Smith)
- Filtrering: for våre SFT-eksperimenter beholder vi kun baner som består tester
(filtrering + "test-verifisert"):
Filtrering: vi beholder trajektorier hvis siste patch består repo-tester. Det gir totalt 258 134 trajektorier, hvorav 155 144 bestått tester brukt for SFT.
Vi ekskluderer også oppgaver som overlapper SWE-benken Verifisert ved (repo, commit) eller problembeskrivelse for dekontaminering.
Skalering + effektivitet:
15.6M API-fullføringer
452B prompt-tokens
2,9 milliarder utgangstokens
90 % cache-treffrate
Anslått kostnad: 130 000 dollar ≈
Opplæringsinfrastruktur:
Base: Qwen3-32B
64x H100 (8 noder)
FSDP2 + Ulysses-sekvensparallellisme
Flash Attention 2 + gradientsjekkpunkt
Sekvenspakking
Resultater på SWE-benken verifisert (500 utgaver):
CoderForge-Preview-32B: 59,4 % pass@1, 78,56 % pass@16
CoderForge-Preview-4B: 43,0 % pass@1
Begrensninger: alle trajektorier kommer fra én stillas-/verktøystabel og består stort sett av feilrettingsoppgaver, uten samarbeid mellom brukere midt i trajektoriet, så overføring til andre stillas/verktøy eller interaktive innstillinger kan forfalle.
Neste: skaler opp datagenereringen (generer flere oppgaver og trajektorier), bruk flere stillas/verktøy/prompt-permutasjoner, og gå utover SFT med agentisk RL.
Vi publiserer datasettet og evalueringssporene:
- Data:
- Spor:
- Blogg:
Gratulerer til @AlpayAriyak, @QingyangWu1 og @ZhongzhuZhou!!
85
Topp
Rangering
Favoritter
