Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
We maken CoderForge-Preview open-source — 258K test-geverifieerde coding-agent trajecten (155K geslaagd | 103K mislukt).
Het fijn afstemmen van Qwen3-32B op de geslaagde subset verhoogt SWE-bench Geverifieerd: 23,0% → 59,4% pass@1, en het staat op #1 onder open-data modellen ≤32B parameters.
Draad over de gegevensgeneratiepipeline 🧵

We hebben drie open taakbronnen gecombineerd en gefilterd → 51K taken over 1.655 repos van:
- R2E-Gym: 4.216 taken (9 repos)
- SWE-Smith: 37.221 taken (124 repos)
- SWE-Rebench: 9.764 taken (1.577 repos)
Opstelling voor trajectgeneratie:
- Docent: Qwen3-Coder-480B
- Steunstructuur: OpenHands v0.52.1
- Hulpmiddelen: bash-uitvoering, bestandsbewerking, redeneren, voltooiing
- Monstername: temp 0.7, top_p 0.8, max_tokens 32.768
- Meerdere trajecten per taak (8 voor R2E‑Gym/SWE‑Rebench, 4 voor SWE‑Smith)
- Filtering: voor onze SFT-experimenten behouden we alleen trajecten die tests doorstaan
(filtering + "test-verified"):
Filtering: we behouden trajecten waarvan de laatste patch de repo-tests doorstaat. Dat levert 258.134 totale trajecten op, waarvan 155.144 test-passing gebruikt worden voor SFT.
We sluiten ook taken uit die overlappen met SWE-bench Verified door (repo, commit) of probleemomschrijving om te decontamineren.
Schaal + efficiëntie:
15,6M API-completies
452B prompttokens
2,9B uitvoertokens
90% cache-hitpercentage
Geschatte kosten: ≈$130K
Trainingsinfrastructuur:
Basis: Qwen3-32B
64x H100 (8 nodes)
FSDP2 + Ulysses sequentiële parallelisme
Flash Attention 2 + gradient checkpointing
Sequentiepakketten
Resultaten op SWE-bench Geverifieerd (500 problemen):
CoderForge-Preview-32B: 59,4% pass@1, 78,56% pass@16
CoderForge-Preview-4B: 43,0% pass@1
Beperkingen: alle trajecten komen van één scaffold/tool stack en voornamelijk bug-fix taken, zonder samenwerking van gebruikers tijdens het traject, dus de overdracht naar andere scaffolds/tools of interactieve instellingen kan afnemen.
Volgende: schaal de gegevensgeneratie op (genereer meer taken en trajecten), gebruik meerdere scaffolds/tools/prompt permutaties, en ga verder dan SFT met agentic RL.
We publiceren de dataset en evaluatietraces:
- Gegevens:
- Traces:
- Blog:
Gefeliciteerd aan @AlpayAriyak, @QingyangWu1, en @ZhongzhuZhou!!
115
Boven
Positie
Favorieten
