Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Vi öppnar CoderForge-Preview öppen källkod — 258K testverifierade kodagenttrajektorier (155K godkänt | 103K underkänt).
Finjustering av Qwen3-32B på passningsdelen ökar SWE-bänken Verified: 23,0 % → 59,4 % pass@1, och den rankas #1 bland öppna datamodeller ≤32 miljarder parametrar.
Tråd på datagenereringspipelinen 🧵

Vi kombinerade och filtrerade tre öppna uppgiftskällor → 51 000 uppgifter fördelade på 1 655 repos från:
- R2E-Gym: 4 216 uppgifter (9 repos)
- SWE-Smith: 37 221 uppgifter (124 repos)
- SWE-Rebench: 9 764 uppgifter (1 577 repos)
Uppsättning av bangenerering:
- Lärare: Qwen3-Coder-480B
- Ställning: OpenHands v0.52.1
- Verktyg: bash-exekvering, filredigering, resonemang, komplettering
- Provtagning: temperatur 0,7, top_p 0,8, max_tokens 32 768
- Flera banor per uppgift (8 för R2E-Gym/SWE-Rebench, 4 för SWE-Smith)
- Filtrering: för våra SFT-experiment behåller vi endast banor som klarar tester
(filtrering + "testverifierad"):
Filtrering: vi behåller banor vars slutliga patch klarar repo-tester. Det ger totalt 258 134 banor, varav 155 144 testgodkända för SFT.
Vi utesluter också uppgifter som överlappar SWE-bench Verified by (repo, commit) eller issue description för dekontaminering.
Skala + effektivitet:
15.6M API-kompletteringar
452B-prompttokens
2,9 miljarder utmatningstoken
90% cacheträfffrekvens
Uppskattad kostnad: 130 000 ≈ dollar
Utbildningsinfrastruktur:
Bas: Qwen3-32B
64x H100 (8 noder)
FSDP2 + Ulysses-sekvensparallellism
Flash Attention 2 + gradientkontrollpunkt
Sekvenspackning
Resultat på SWE-bench verifierade (500 nummer):
CoderForge-Preview-32B: 59,4 % pass@1, 78,56 % pass@16
CoderForge-Preview-4B: 43,0 % pass@1
Begränsningar: alla banor kommer från en och samma byggnads-/verktygsstack och består mestadels av buggfixar, utan samarbete mellan användarna, så överföring till andra ställningar/verktyg eller interaktiva miljöer kan försvinna.
Nästa: skala upp datagenereringen (generera fler uppgifter och banor), använd flera ställningar/verktyg/prompt-permutationer och gå bortom SFT med agentisk RL.
Vi släpper datamängden och utvärderingsspåren:
- Data:
- Spår:
- Blogg:
Grattis till @AlpayAriyak, @QingyangWu1 och @ZhongzhuZhou!!
83
Topp
Rankning
Favoriter
