Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Kami open-source CoderForge-Preview — 258K lintasan agen pengkodean yang diverifikasi pengujian (155K lulus | 103K gagal).
Menyempurnakan Qwen3-32B pada subset yang lewat meningkatkan SWE-bench Terverifikasi: 23,0% → 59,4% pass@1, dan menempati peringkat #1 di antara model data terbuka ≤parameter 32B.
Utas pada alur pembuatan 🧵 data

Kami menggabungkan dan memfilter tiga sumber tugas terbuka → 51 ribu tugas di 1.655 repositori dari:
- R2E-Gym: 4.216 tugas (9 repos)
- SWE-Smith: 37.221 tugas (124 repos)
- SWE-Rebench: 9.764 tugas (1.577 repo)
Pengaturan pembuatan lintasan:
- Guru: Qwen3-Coder-480B
- Perancah: OpenHands v0.52.1
- Alat: eksekusi bash, pengeditan file, penalaran, penyelesaian
- Pengambilan sampel: suhu 0,7, top_p 0,8, max_tokens 32.768
- Beberapa lintasan per tugas (8 untuk R2E-Gym/SWE-Rebench, 4 untuk SWE-Smith)
- Pemfilteran: untuk eksperimen SFT kami, kami hanya menyimpan lintasan yang lulus pengujian
(pemfilteran + "diverifikasi pengujian"):
Pemfilteran: kami menyimpan lintasan yang tambalan terakhirnya lulus tes reposito. Itu menghasilkan 258.134 total lintasan, dengan 155.144 uji coba digunakan untuk SFT.
Kami juga mengecualikan tugas yang tumpang tindih SWE-bench Verified by (repo, commit) atau deskripsi masalah untuk didekontaminasi.
Skala + efisiensi:
15,6 juta penyelesaian API
Token prompt 452B
2,9 miliar token keluaran
90% tingkat hit cache
Perkiraan biaya: ≈$130K
Infrastruktur pelatihan:
Pangkalan: Qwen3-32B
64x H100 (8 node)
FSDP2 + paralelisme urutan Ulysses
Flash Attention 2 + pos pemeriksaan gradien
Pengepakan Urutan
Hasil di SWE-bench Verified (500 masalah):
CoderForge-Preview-32B: 59,4% pass@1, 78,56% pass@16
CoderForge-Preview-4B: 43,0% pass@1
Keterbatasan: semua lintasan berasal dari satu perancah/tumpukan alat dan sebagian besar tugas perbaikan bug, tanpa kolaborasi pengguna lintasan tengah, sehingga transfer ke perancah/alat lain atau pengaturan interaktif mungkin turun.
Berikutnya: tingkatkan pembuatan data (hasilkan lebih banyak tugas dan lintasan), gunakan beberapa perancah/alat/permutasi prompt, dan melampaui SFT dengan RL agen.
Kami merilis kumpulan data dan pelacakan evaluasi:
- Data:
- Jejak:
- Blog:
Selamat kepada @AlpayAriyak, @QingyangWu1, dan @ZhongzhuZhou!!
57
Teratas
Peringkat
Favorit
