نحن نفتح المصدر لبرنامج CoderForge-Preview — 258 ألف مسار لوكيل الترميز المعتمد من الاختبار (155K نجاح | 103K رسوب). تعديل Qwen3-32B على المجموعة الفرعية التمريرة يعزز SWE-bench Verified: 23.0٪ → 59.4٪ pass@1، ويحتل المرتبة #1 بين نماذج البيانات المفتوحة ≤32B معلمات. خيط في خط إنتاج 🧵 البيانات
قمنا بدمج وتصفية ثلاثة مصادر مهام مفتوحة → 51 ألف مهمة عبر 1,655 مستودعا من: - صالة R2E-Gym: 4,216 مهمة (9 مستودعات) - SWE-Smith: 37,221 مهمة (124 مستودعا) - SWE-Rebench: 9,764 مهمة (1,577 مستودعا)
إعداد توليد المسار: - المعلم: Qwen3-Coder-480B - سقالات: OpenHands v0.52.1 - الأدوات: تنفيذ الباش، تحرير الملفات، التفكير، الإكمال - أخذ العينات: درجة الحرارة 0.7، top_p 0.8، max_tokens 32,768 - مسارات متعددة لكل مهمة (8 لصالة R2E-Gym/SWE-Rebench، 4 ل-SWE-سميث) - الترشيح: في تجاربنا في SFT، نحتفظ فقط بالمسارات التي تجتاز الاختبارات
(تصفية + "تم التحقق من الاختبار"): التصفية: نحتفظ بمسارات تتجاوز التحديث النهائي اختبارات الاسترجاع. وهذا ينتج 258,134 مسارا إجماليا، منها 155,144 اختبارا اجتياز في SFT. كما نستبعد المهام المتداخلة مع وحدة SWE-bench تم التحقق منها بواسطة (repos, commit) أو وصف القضية لإزالة التلوث.
المقياس + الكفاءة: 15.6 مليون إكمال API رموز الأوامر 452B 2.9 مليار رموز إخراج معدل إصابة ذاكرة مؤقتة 90٪ التكلفة المقدرة: ≈130 ألف دولار
البنية التحتية للتدريب: القاعدة: Qwen3-32B 64x H100 (8 عقد) التوازي في تسلسل FSDP2 + يوليسيس انتباه سريع 2 + نقاط تفتيش تدرج تعبئة التسلسل
نتائج اختبار SWE-bench تم التحقق منه (500 عدد): كودر فورج-بريفيو-32ب: 59.4٪ pass@1، 78.56٪ pass@16 CoderForge-Preview-4B: 43.0٪ pass@1
القيود: جميع المسارات تأتي من هيكل واحد/مجموعة أدوات وغالبا ما تكون مهام إصلاح الأخطاء، دون تعاون مستخدم في منتصف المسار، لذا قد ينخفض الانتقال إلى سقالات/أدوات أو إعدادات تفاعلية أخرى. التالي: توسيع نطاق توليد البيانات (توليد المزيد من المهام والمسارات)، استخدام عدة سقالات/أدوات/تحديلات التوجيه، واتجاوز SFT مع التعلم المعزز الوكيل.
نصدر مجموعة البيانات ومسارات التقييم: - البيانات: - آثار: - المدونة: مبروك ل @AlpayAriyak و@QingyangWu1 و@ZhongzhuZhou!!
‏‎57‏