Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Udostępniamy CoderForge-Preview — 258K zweryfikowanych testowo trajektorii agenta kodującego (155K zaliczonych | 103K niezaliczonych).
Dostosowanie Qwen3-32B na zaliczonym podzbiorze zwiększa SWE-bench Verified: 23,0% → 59,4% pass@1, a model ten zajmuje 1. miejsce wśród modeli open-data ≤32B parametrów.
Wątek na temat pipeline'u generowania danych 🧵

Połączyliśmy i przefiltrowaliśmy trzy otwarte źródła zadań → 51K zadań w 1,655 repozytoriach z:
- R2E-Gym: 4,216 zadań (9 repozytoriów)
- SWE-Smith: 37,221 zadań (124 repozytoria)
- SWE-Rebench: 9,764 zadań (1,577 repozytoriów)
Ustawienia generacji trajektorii:
- Nauczyciel: Qwen3-Coder-480B
- Rusztowanie: OpenHands v0.52.1
- Narzędzia: wykonanie bash, edytowanie plików, rozumowanie, uzupełnianie
- Próbkowanie: temp 0.7, top_p 0.8, max_tokens 32,768
- Wiele trajektorii na zadanie (8 dla R2E‑Gym/SWE‑Rebench, 4 dla SWE‑Smith)
- Filtrowanie: w naszych eksperymentach SFT zachowujemy tylko trajektorie, które przechodzą testy
(filtrowanie + "test-zweryfikowane"):
Filtrowanie: zachowujemy trajektorie, których końcowa łatka przechodzi testy repozytoriów. To daje łączną liczbę 258,134 trajektorii, z 155,144 przechodzącymi testy użytymi do SFT.
Wykluczamy również zadania pokrywające się z SWE-bench Zweryfikowane przez (repo, commit) lub opis problemu, aby oczyścić.
Skala + wydajność:
15,6M zakończeń API
452B tokenów prompt
2,9B tokenów wyjściowych
90% wskaźnik trafień w pamięci podręcznej
Szacunkowy koszt: ≈130K$
Infrastruktura szkoleniowa:
Podstawa: Qwen3-32B
64x H100 (8 węzłów)
FSDP2 + równoległość sekwencji Ulysses
Flash Attention 2 + punkt kontrolny gradientu
Pakowanie sekwencji
Wyniki na SWE-bench Zweryfikowane (500 problemów):
CoderForge-Preview-32B: 59.4% pass@1, 78.56% pass@16
CoderForge-Preview-4B: 43.0% pass@1
Ograniczenia: wszystkie trajektorie pochodzą z jednego szkieletu/narzędzia i głównie dotyczą zadań naprawczych, bez współpracy użytkowników w trakcie trajektorii, więc przeniesienie do innych szkieletów/narzędzi lub interaktywnych ustawień może być ograniczone.
Następnie: zwiększyć generację danych (generować więcej zadań i trajektorii), używać wielu szkieletów/narzędzi/permutacji podpowiedzi i wyjść poza SFT z agentowym RL.
Udostępniamy zestaw danych i ślady oceny:
- Dane:
- Ślady:
- Blog:
Gratulacje dla @AlpayAriyak, @QingyangWu1 i @ZhongzhuZhou!!
90
Najlepsze
Ranking
Ulubione
