DApp Store | Pusat Web3 untuk Event & Game

Topik trending

Kami open-source CoderForge-Preview — 258K lintasan agen pengkodean yang diverifikasi pengujian (155K lulus | 103K gagal). Menyempurnakan Qwen3-32B pada subset yang lewat meningkatkan SWE-bench Terverifikasi: 23,0% → 59,4% pass@1, dan menempati peringkat #1 di antara model data terbuka ≤parameter 32B. Utas pada alur pembuatan 🧵 data

Kami menggabungkan dan memfilter tiga sumber tugas terbuka → 51 ribu tugas di 1.655 repositori dari: - R2E-Gym: 4.216 tugas (9 repos) - SWE-Smith: 37.221 tugas (124 repos) - SWE-Rebench: 9.764 tugas (1.577 repo)

Pengaturan pembuatan lintasan: - Guru: Qwen3-Coder-480B - Perancah: OpenHands v0.52.1 - Alat: eksekusi bash, pengeditan file, penalaran, penyelesaian - Pengambilan sampel: suhu 0,7, top_p 0,8, max_tokens 32.768 - Beberapa lintasan per tugas (8 untuk R2E-Gym/SWE-Rebench, 4 untuk SWE-Smith) - Pemfilteran: untuk eksperimen SFT kami, kami hanya menyimpan lintasan yang lulus pengujian

(pemfilteran + "diverifikasi pengujian"): Pemfilteran: kami menyimpan lintasan yang tambalan terakhirnya lulus tes reposito. Itu menghasilkan 258.134 total lintasan, dengan 155.144 uji coba digunakan untuk SFT. Kami juga mengecualikan tugas yang tumpang tindih SWE-bench Verified by (repo, commit) atau deskripsi masalah untuk didekontaminasi.

Skala + efisiensi: 15,6 juta penyelesaian API Token prompt 452B 2,9 miliar token keluaran 90% tingkat hit cache Perkiraan biaya: ≈$130K

Infrastruktur pelatihan: Pangkalan: Qwen3-32B 64x H100 (8 node) FSDP2 + paralelisme urutan Ulysses Flash Attention 2 + pos pemeriksaan gradien Pengepakan Urutan

Hasil di SWE-bench Verified (500 masalah): CoderForge-Preview-32B: 59,4% pass@1, 78,56% pass@16 CoderForge-Preview-4B: 43,0% pass@1

Keterbatasan: semua lintasan berasal dari satu perancah/tumpukan alat dan sebagian besar tugas perbaikan bug, tanpa kolaborasi pengguna lintasan tengah, sehingga transfer ke perancah/alat lain atau pengaturan interaktif mungkin turun. Berikutnya: tingkatkan pembuatan data (hasilkan lebih banyak tugas dan lintasan), gunakan beberapa perancah/alat/permutasi prompt, dan melampaui SFT dengan RL agen.

Kami merilis kumpulan data dan pelacakan evaluasi: - Data: - Jejak: - Blog: Selamat kepada @AlpayAriyak, @QingyangWu1, dan @ZhongzhuZhou!!

Teratas

Peringkat

Favorit