Otevíráme CoderForge-Preview — 258K testem ověřených trajektorií kódovacích agentů (155K průchodu | 103K neúspěchů). Jemné doladění Qwen3-32B na podmnožině přihrávek zvyšuje SWE-bench Ověřeno: 23,0 % → 59,4 % pass@1 a řadí se na #1 mezi modely otevřených dat ≤32B parametrů. Vlákno na datovém generovacím potrubí 🧵
Spojili jsme a filtrovali tři open task source → 51 000 úloh v 1 655 repozitářích z: - R2E-Gym: 4 216 úkolů (9 repozitářů) - SWE-Smith: 37 221 úkolů (124 repozitářů) - SWE-Rebench: 9 764 úkolů (1 577 repozitářů)
Nastavení generování trajektorie: - Učitel: Qwen3-Coder-480B - Scaffold: OpenHands v0.52.1 - Nástroje: spouštění bashu, úprava souborů, uvažování, doplňování - Vzorkování: teplota 0,7, top_p 0,8, max_tokens 32 768 - Více trajektorií na úkol (8 pro R2E-Gym/SWE-Rebench, 4 pro SWE-Smith) - Filtrování: u našich SFT experimentů uchováváme pouze trajektorie, které prošly testy
(filtrování + "ověřeno testem"): Filtrování: uchováváme trajektorie, jejichž finální záplata projde repozitářovými testy. To dává celkem 258 134 trajektorií, z toho 155 144 úspěšných testů pro SFT. Také vylučujeme úkoly, které se překrývají – SWE-bench ověřené (repozitář, commit) nebo popis vydání pro dekontaminaci.
Škálovatelnost + efektivita: 15,6 M dokončení API 452B promptové tokeny 2,9B výstupní tokeny 90% úspěšnost cache Odhadované náklady: ≈$130K
Vzdělávací infrastruktura: Základna: Qwen3-32B 64x H100 (8 uzlů) FSDP2 + Ulyssesův paralelizismus sekvencí Flash Attention 2 + gradient checkpointing Balení sekvencí
Výsledky na SWE-bench ověřeno (500 čísel): CoderForge-Preview-32B: 59,4 % pass@1, 78,56 % pass@16 CoderForge-Preview-4B: 43,0 % pass@1
Omezení: všechny trajektorie vycházejí z jednoho lešení/nástrojového stacku a většinou opravují chyby, bez spolupráce uživatelů uprostřed trajektorie, takže přenos na jiné lešení/nástroje nebo interaktivní prostředí může klesnout. Dále: rozšiřte generování dat (generujte více úkolů a trajektorií), používejte více scaffoldů/nástrojů/permutací promptů a jděte dál než SFT s agentic RL.
Zveřejňujeme datovou sadu a evaluační stopy: - Data: - Stopy: - Blog: Gratulujeme @AlpayAriyak, @QingyangWu1 a @ZhongzhuZhou!!
134