Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Deschidem codul CoderForge-Preview — 258K traiectorii de agent de codare verificate prin test (155K trecere | 103K eșec).
Ajustarea fină a Qwen3-32B pe subsetul de trecere crește SWE-bench Verified: 23,0% → 59,4% pass@1 și se clasează pe locul #1 între modelele open-data ≤32B parametri.
Fir de distracție pe pipeline-ul 🧵 de generare a datelor

Am combinat și filtrat trei surse deschise de sarcini → 51.000 de sarcini pe 1.655 de repozitorii din:
- R2E-Gym: 4.216 sarcini (9 repoziții)
- SWE-Smith: 37.221 sarcini (124 repoziții)
- SWE-Rebench: 9.764 sarcini (1.577 repozitoare)
Configurarea generării traiectoriei:
- Profesor: Qwen3-Coder-480B
- Schele: OpenHands v0.52.1
- Unelte: execuție bash, editare fișiere, raționament, finalizare
- Eșantionare: temperatură 0,7, top_p 0,8, max_tokens 32.768
- Traiectorii multiple pe sarcină (8 pentru R2E-Gym/SWE-Rebench, 4 pentru SWE-Smith)
- Filtrare: pentru experimentele noastre SFT, păstrăm doar traiectoriile care trec testele
(filtrare + "test-verificat"):
Filtrare: păstrăm traiectorii ale căror ultime actualizări trec testele de depozitare. Aceasta duce la 258.134 de traiectorii totale, dintre care 155.144 au fost folosite pentru SFT.
De asemenea, excludem sarcinile care se suprapun la SWE-bench verificat prin (repo, commit) sau descrierea problemei pentru decontaminare.
Scară + eficiență:
15,6M completări API
Jetoane de prompt 452B
2,9 miliarde jetoane de ieșire
Rată de vizualizare a cache-ului de 90%
Cost estimat: ≈130.000$
Infrastructura de instruire:
Bază: Qwen3-32B
64x H100 (8 noduri)
Paralelism de secvență FSDP2 + Ulysses
Flash Attention 2 + checkpointing gradient
Împachetarea secvențelor
Rezultate pe SWE-bench verificate (500 de numere):
CoderForge-Preview-32B: 59,4% pass@1, 78,56% pass@16
CoderForge-Preview-4B: 43,0% pass@1
Limitări: toate traiectoriile provin dintr-un singur stack de schelă/unelte și în principal sarcini de corectare a erorilor, fără colaborare a utilizatorilor la mijlocul traiectoriei, astfel încât transferul către alte schele/unelte sau setări interactive poate fi eliminat.
Apoi: extinde generarea de date (generează mai multe sarcini și traiectorii), folosește mai multe schele/unelte/permutări de prompturi și mergi dincolo de SFT cu RL agentic.
Publicăm setul de date și urmele de evaluare:
- Date:
- Urme:
- Blog:
Felicitări @AlpayAriyak, @QingyangWu1 și @ZhongzhuZhou!!
88
Limită superioară
Clasament
Favorite
