المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
نحن نفتح المصدر لبرنامج CoderForge-Preview — 258 ألف مسار لوكيل الترميز المعتمد من الاختبار (155K نجاح | 103K رسوب).
تعديل Qwen3-32B على المجموعة الفرعية التمريرة يعزز SWE-bench Verified: 23.0٪ → 59.4٪ pass@1، ويحتل المرتبة #1 بين نماذج البيانات المفتوحة ≤32B معلمات.
خيط في خط إنتاج 🧵 البيانات

قمنا بدمج وتصفية ثلاثة مصادر مهام مفتوحة → 51 ألف مهمة عبر 1,655 مستودعا من:
- صالة R2E-Gym: 4,216 مهمة (9 مستودعات)
- SWE-Smith: 37,221 مهمة (124 مستودعا)
- SWE-Rebench: 9,764 مهمة (1,577 مستودعا)
إعداد توليد المسار:
- المعلم: Qwen3-Coder-480B
- سقالات: OpenHands v0.52.1
- الأدوات: تنفيذ الباش، تحرير الملفات، التفكير، الإكمال
- أخذ العينات: درجة الحرارة 0.7، top_p 0.8، max_tokens 32,768
- مسارات متعددة لكل مهمة (8 لصالة R2E-Gym/SWE-Rebench، 4 ل-SWE-سميث)
- الترشيح: في تجاربنا في SFT، نحتفظ فقط بالمسارات التي تجتاز الاختبارات
(تصفية + "تم التحقق من الاختبار"):
التصفية: نحتفظ بمسارات تتجاوز التحديث النهائي اختبارات الاسترجاع. وهذا ينتج 258,134 مسارا إجماليا، منها 155,144 اختبارا اجتياز في SFT.
كما نستبعد المهام المتداخلة مع وحدة SWE-bench تم التحقق منها بواسطة (repos, commit) أو وصف القضية لإزالة التلوث.
المقياس + الكفاءة:
15.6 مليون إكمال API
رموز الأوامر 452B
2.9 مليار رموز إخراج
معدل إصابة ذاكرة مؤقتة 90٪
التكلفة المقدرة: ≈130 ألف دولار
البنية التحتية للتدريب:
القاعدة: Qwen3-32B
64x H100 (8 عقد)
التوازي في تسلسل FSDP2 + يوليسيس
انتباه سريع 2 + نقاط تفتيش تدرج
تعبئة التسلسل
نتائج اختبار SWE-bench تم التحقق منه (500 عدد):
كودر فورج-بريفيو-32ب: 59.4٪ pass@1، 78.56٪ pass@16
CoderForge-Preview-4B: 43.0٪ pass@1
القيود: جميع المسارات تأتي من هيكل واحد/مجموعة أدوات وغالبا ما تكون مهام إصلاح الأخطاء، دون تعاون مستخدم في منتصف المسار، لذا قد ينخفض الانتقال إلى سقالات/أدوات أو إعدادات تفاعلية أخرى.
التالي: توسيع نطاق توليد البيانات (توليد المزيد من المهام والمسارات)، استخدام عدة سقالات/أدوات/تحديلات التوجيه، واتجاوز SFT مع التعلم المعزز الوكيل.
نصدر مجموعة البيانات ومسارات التقييم:
- البيانات:
- آثار:
- المدونة:
مبروك ل @AlpayAriyak و@QingyangWu1 و@ZhongzhuZhou!!
57
الأفضل
المُتصدِّرة
التطبيقات المفضلة
