DApp Store | Hub Web3 pour les événements et les jeux

Rubriques tendance

Nous open-sourçons CoderForge-Preview — 258K trajectoires d'agents de codage vérifiées par des tests (155K réussites | 103K échecs). Le fine-tuning de Qwen3-32B sur le sous-ensemble des réussites augmente le SWE-bench Vérifié : 23,0 % → 59,4 % pass@1, et il se classe #1 parmi les modèles de données ouvertes ≤32B paramètres. Fil sur le pipeline de génération de données 🧵

Nous avons combiné et filtré trois sources de tâches ouvertes → 51K tâches à travers 1 655 dépôts provenant de : - R2E-Gym : 4 216 tâches (9 dépôts) - SWE-Smith : 37 221 tâches (124 dépôts) - SWE-Rebench : 9 764 tâches (1 577 dépôts)

Configuration de génération de trajectoire : - Enseignant : Qwen3-Coder-480B - Échafaudage : OpenHands v0.52.1 - Outils : exécution bash, édition de fichiers, raisonnement, achèvement - Échantillonnage : temp 0.7, top_p 0.8, max_tokens 32,768 - Plusieurs trajectoires par tâche (8 pour R2E‑Gym/SWE‑Rebench, 4 pour SWE‑Smith) - Filtrage : pour nos expériences SFT, nous ne conservons que les trajectoires qui passent les tests

(filtrage + "test-vérifié"): Filtrage : nous conservons les trajectoires dont le dernier patch passe les tests du dépôt. Cela donne un total de 258 134 trajectoires, avec 155 144 réussissant les tests utilisées pour SFT. Nous excluons également les tâches chevauchant SWE-bench Vérifié par (dépôt, commit) ou description de l'incident pour décontaminer.

Échelle + efficacité : 15,6M de complétions d'API 452B de tokens d'invite 2,9B de tokens de sortie Taux de cache de 90% Coût estimé : ≈130K$

Infrastructure d'entraînement : Base : Qwen3-32B 64x H100 (8 nœuds) FSDP2 + parallélisme de séquence Ulysses Flash Attention 2 + point de contrôle de gradient Emballage de séquence

Résultats sur SWE-bench Vérifié (500 problèmes) : CoderForge-Preview-32B : 59,4 % pass@1, 78,56 % pass@16 CoderForge-Preview-4B : 43,0 % pass@1

Limitations : toutes les trajectoires proviennent d'un seul cadre/outil et concernent principalement des tâches de correction de bogues, sans collaboration utilisateur en cours de trajectoire, donc le transfert vers d'autres cadres/outils ou des environnements interactifs pourrait diminuer. Prochaines étapes : augmenter la génération de données (générer plus de tâches et de trajectoires), utiliser plusieurs cadres/outils/variantes de prompt, et aller au-delà de SFT avec un RL agentique.

Nous publions le jeu de données et les traces d'évaluation : - Données : - Traces : - Blog : Félicitations à @AlpayAriyak, @QingyangWu1 et @ZhongzhuZhou !!

113

Meilleurs

Classement

Favoris