Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Otevíráme CoderForge-Preview — 258K testem ověřených trajektorií kódovacích agentů (155K průchodu | 103K neúspěchů).
Jemné doladění Qwen3-32B na podmnožině přihrávek zvyšuje SWE-bench Ověřeno: 23,0 % → 59,4 % pass@1 a řadí se na #1 mezi modely otevřených dat ≤32B parametrů.
Vlákno na datovém generovacím potrubí 🧵

Spojili jsme a filtrovali tři open task source → 51 000 úloh v 1 655 repozitářích z:
- R2E-Gym: 4 216 úkolů (9 repozitářů)
- SWE-Smith: 37 221 úkolů (124 repozitářů)
- SWE-Rebench: 9 764 úkolů (1 577 repozitářů)
Nastavení generování trajektorie:
- Učitel: Qwen3-Coder-480B
- Scaffold: OpenHands v0.52.1
- Nástroje: spouštění bashu, úprava souborů, uvažování, doplňování
- Vzorkování: teplota 0,7, top_p 0,8, max_tokens 32 768
- Více trajektorií na úkol (8 pro R2E-Gym/SWE-Rebench, 4 pro SWE-Smith)
- Filtrování: u našich SFT experimentů uchováváme pouze trajektorie, které prošly testy
(filtrování + "ověřeno testem"):
Filtrování: uchováváme trajektorie, jejichž finální záplata projde repozitářovými testy. To dává celkem 258 134 trajektorií, z toho 155 144 úspěšných testů pro SFT.
Také vylučujeme úkoly, které se překrývají – SWE-bench ověřené (repozitář, commit) nebo popis vydání pro dekontaminaci.
Škálovatelnost + efektivita:
15,6 M dokončení API
452B promptové tokeny
2,9B výstupní tokeny
90% úspěšnost cache
Odhadované náklady: ≈$130K
Vzdělávací infrastruktura:
Základna: Qwen3-32B
64x H100 (8 uzlů)
FSDP2 + Ulyssesův paralelizismus sekvencí
Flash Attention 2 + gradient checkpointing
Balení sekvencí
Výsledky na SWE-bench ověřeno (500 čísel):
CoderForge-Preview-32B: 59,4 % pass@1, 78,56 % pass@16
CoderForge-Preview-4B: 43,0 % pass@1
Omezení: všechny trajektorie vycházejí z jednoho lešení/nástrojového stacku a většinou opravují chyby, bez spolupráce uživatelů uprostřed trajektorie, takže přenos na jiné lešení/nástroje nebo interaktivní prostředí může klesnout.
Dále: rozšiřte generování dat (generujte více úkolů a trajektorií), používejte více scaffoldů/nástrojů/permutací promptů a jděte dál než SFT s agentic RL.
Zveřejňujeme datovou sadu a evaluační stopy:
- Data:
- Stopy:
- Blog:
Gratulujeme @AlpayAriyak, @QingyangWu1 a @ZhongzhuZhou!!
134
Top
Hodnocení
Oblíbené
