CoderForge-Preview — 258K test-doğrulanmış kodlama ajanı yörüngelerini (155K geçiş | 103K hata) açık kaynak olarak kullanıyoruz. Qwen3-32B'nin geçiş alt kümesinde ince ayarlaması SWE-bench Verified'ı artırır: %23,0 → %59,4 pass@1 ve açık veri modelleri arasında ≤32B parametreleri arasında #1 sırada yer alır. Veri üretim boru hattı 🧵 üzerine iş parçacığı
1.655 depo boyunca 51K görev → üç açık görev kaynağını birleştirip filtreledik: - R2E-Gym: 4.216 görev (9 depo) - SWE-Smith: 37.221 görev (124 depo) - SWE-Rebench: 9.764 görev (1.577 depo)
Yörünge oluşturma kurulumu: - Öğretmen: Qwen3-Coder-480B - Iskele: OpenHands v0.52.1 - Araçlar: bash-çalıştırma, dosya düzenleme, akıl yürütme, tamamlama - Örnekleme: sıcaklık 0.7, top_p 0.8, max_tokens 32.768 - Görev başına birden fazla yörünge (R2E-Gym/SWE-Rebench için 8, SWE-Smith için 4) - Filtreleme: SFT deneylerimizde yalnızca testlerden geçen yörüngeleri saklıyoruz
(filtreleme + "test doğrulanmış"): Filtreleme: son yama depo testlerinden geçen yörüngeleri koruyoruz. Bu, toplam 258.134 yörünge demek, 155.144 test geçme yörüngesi SFT için kullanılmıştır. Ayrıca, SWE-bench tarafından doğrulanmış (repo, commit) veya dezinfekasyon için issue açıklaması ile örtüşen görevleri de hariç tutuyoruz.
Ölçek + verimlilik: 15.6M API completions 452B prompt token'ları 2.9B çıkış tokenları %90 önbellek isabet oranı Tahmini maliyet: 130 ≈$130K
Eğitim altyapısı: Üs: Qwen3-32B 64x H100 (8 düğüm) FSDP2 + Ulysses dizisi paralelliği Flash Dikkat 2 + gradyan kontrol noktası Dizi Paketleme
SWE-bench Verified sonuçları (500 sayı): CoderForge-Preview-32B: %59,4 pass@1, %78,56 pass@16 CoderForge-Preview-4B: %43,0 pass@1
Sınırlamalar: Tüm yörüngeler tek bir iskele/araç yığınından gelir ve çoğunlukla hata düzeltme görevleri olur, orta yol kullanıcı iş birliği yoktur, bu yüzden başka iskelere/araçlara veya etkileşimli ayarlara geçiş düşebilir. Sonra: veri üretimini ölçeklendirin (daha fazla görev ve yörünge oluşturun), birden fazla iskele/araç/prompt permütasyonları kullanın ve ajanik RL ile SFT'nin ötesine geçin.
Veri setini ve değerlendirme izlerini yayınlıyoruz: - Veri: - İzler: - Blog: @AlpayAriyak, @QingyangWu1 ve @ZhongzhuZhou'yi tebrikler!!
90