Trend Olan Konular
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
CoderForge-Preview — 258K test-doğrulanmış kodlama ajanı yörüngelerini (155K geçiş | 103K hata) açık kaynak olarak kullanıyoruz.
Qwen3-32B'nin geçiş alt kümesinde ince ayarlaması SWE-bench Verified'ı artırır: %23,0 → %59,4 pass@1 ve açık veri modelleri arasında ≤32B parametreleri arasında #1 sırada yer alır.
Veri üretim boru hattı 🧵 üzerine iş parçacığı

1.655 depo boyunca 51K görev → üç açık görev kaynağını birleştirip filtreledik:
- R2E-Gym: 4.216 görev (9 depo)
- SWE-Smith: 37.221 görev (124 depo)
- SWE-Rebench: 9.764 görev (1.577 depo)
Yörünge oluşturma kurulumu:
- Öğretmen: Qwen3-Coder-480B
- Iskele: OpenHands v0.52.1
- Araçlar: bash-çalıştırma, dosya düzenleme, akıl yürütme, tamamlama
- Örnekleme: sıcaklık 0.7, top_p 0.8, max_tokens 32.768
- Görev başına birden fazla yörünge (R2E-Gym/SWE-Rebench için 8, SWE-Smith için 4)
- Filtreleme: SFT deneylerimizde yalnızca testlerden geçen yörüngeleri saklıyoruz
(filtreleme + "test doğrulanmış"):
Filtreleme: son yama depo testlerinden geçen yörüngeleri koruyoruz. Bu, toplam 258.134 yörünge demek, 155.144 test geçme yörüngesi SFT için kullanılmıştır.
Ayrıca, SWE-bench tarafından doğrulanmış (repo, commit) veya dezinfekasyon için issue açıklaması ile örtüşen görevleri de hariç tutuyoruz.
Ölçek + verimlilik:
15.6M API completions
452B prompt token'ları
2.9B çıkış tokenları
%90 önbellek isabet oranı
Tahmini maliyet: 130 ≈$130K
Eğitim altyapısı:
Üs: Qwen3-32B
64x H100 (8 düğüm)
FSDP2 + Ulysses dizisi paralelliği
Flash Dikkat 2 + gradyan kontrol noktası
Dizi Paketleme
SWE-bench Verified sonuçları (500 sayı):
CoderForge-Preview-32B: %59,4 pass@1, %78,56 pass@16
CoderForge-Preview-4B: %43,0 pass@1
Sınırlamalar: Tüm yörüngeler tek bir iskele/araç yığınından gelir ve çoğunlukla hata düzeltme görevleri olur, orta yol kullanıcı iş birliği yoktur, bu yüzden başka iskelere/araçlara veya etkileşimli ayarlara geçiş düşebilir.
Sonra: veri üretimini ölçeklendirin (daha fazla görev ve yörünge oluşturun), birden fazla iskele/araç/prompt permütasyonları kullanın ve ajanik RL ile SFT'nin ötesine geçin.
Veri setini ve değerlendirme izlerini yayınlıyoruz:
- Veri:
- İzler:
- Blog:
@AlpayAriyak, @QingyangWu1 ve @ZhongzhuZhou'yi tebrikler!!
90
En İyiler
Sıralama
Takip Listesi
