Udostępniamy CoderForge-Preview — 258K zweryfikowanych testowo trajektorii agenta kodującego (155K zaliczonych | 103K niezaliczonych). Dostosowanie Qwen3-32B na zaliczonym podzbiorze zwiększa SWE-bench Verified: 23,0% → 59,4% pass@1, a model ten zajmuje 1. miejsce wśród modeli open-data ≤32B parametrów. Wątek na temat pipeline'u generowania danych 🧵
Połączyliśmy i przefiltrowaliśmy trzy otwarte źródła zadań → 51K zadań w 1,655 repozytoriach z: - R2E-Gym: 4,216 zadań (9 repozytoriów) - SWE-Smith: 37,221 zadań (124 repozytoria) - SWE-Rebench: 9,764 zadań (1,577 repozytoriów)
Ustawienia generacji trajektorii: - Nauczyciel: Qwen3-Coder-480B - Rusztowanie: OpenHands v0.52.1 - Narzędzia: wykonanie bash, edytowanie plików, rozumowanie, uzupełnianie - Próbkowanie: temp 0.7, top_p 0.8, max_tokens 32,768 - Wiele trajektorii na zadanie (8 dla R2E‑Gym/SWE‑Rebench, 4 dla SWE‑Smith) - Filtrowanie: w naszych eksperymentach SFT zachowujemy tylko trajektorie, które przechodzą testy
(filtrowanie + "test-zweryfikowane"): Filtrowanie: zachowujemy trajektorie, których końcowa łatka przechodzi testy repozytoriów. To daje łączną liczbę 258,134 trajektorii, z 155,144 przechodzącymi testy użytymi do SFT. Wykluczamy również zadania pokrywające się z SWE-bench Zweryfikowane przez (repo, commit) lub opis problemu, aby oczyścić.
Skala + wydajność: 15,6M zakończeń API 452B tokenów prompt 2,9B tokenów wyjściowych 90% wskaźnik trafień w pamięci podręcznej Szacunkowy koszt: ≈130K$
Infrastruktura szkoleniowa: Podstawa: Qwen3-32B 64x H100 (8 węzłów) FSDP2 + równoległość sekwencji Ulysses Flash Attention 2 + punkt kontrolny gradientu Pakowanie sekwencji
Wyniki na SWE-bench Zweryfikowane (500 problemów): CoderForge-Preview-32B: 59.4% pass@1, 78.56% pass@16 CoderForge-Preview-4B: 43.0% pass@1
Ograniczenia: wszystkie trajektorie pochodzą z jednego szkieletu/narzędzia i głównie dotyczą zadań naprawczych, bez współpracy użytkowników w trakcie trajektorii, więc przeniesienie do innych szkieletów/narzędzi lub interaktywnych ustawień może być ograniczone. Następnie: zwiększyć generację danych (generować więcej zadań i trajektorii), używać wielu szkieletów/narzędzi/permutacji podpowiedzi i wyjść poza SFT z agentowym RL.
Udostępniamy zestaw danych i ślady oceny: - Dane: - Ślady: - Blog: Gratulacje dla @AlpayAriyak, @QingyangWu1 i @ZhongzhuZhou!!
90