DApp Store | Sede de Web3 para eventos y juegos

Tendencias del momento

Estamos liberando el código de CoderForge-Preview: 258K trayectorias de agentes de codificación verificadas por pruebas (155K aprobadas | 103K fallidas). Ajustar Qwen3-32B en el subconjunto aprobado aumenta SWE-bench Verificado: 23.0% → 59.4% pass@1, y ocupa el puesto #1 entre los modelos de datos abiertos ≤32B parámetros. Hilo sobre el pipeline de generación de datos 🧵

Combinamos y filtramos tres fuentes de tareas abiertas → 51K tareas en 1,655 repositorios de: - R2E-Gym: 4,216 tareas (9 repositorios) - SWE-Smith: 37,221 tareas (124 repositorios) - SWE-Rebench: 9,764 tareas (1,577 repositorios)

Configuración de generación de trayectorias: - Maestro: Qwen3-Coder-480B - Andamio: OpenHands v0.52.1 - Herramientas: ejecución de bash, edición de archivos, razonamiento, finalización - Muestreo: temp 0.7, top_p 0.8, max_tokens 32,768 - Múltiples trayectorias por tarea (8 para R2E‑Gym/SWE‑Rebench, 4 para SWE‑Smith) - Filtrado: para nuestros experimentos de SFT, solo mantenemos trayectorias que superan las pruebas

(filtrado + "test-verificado"): Filtrado: mantenemos trayectorias cuyas últimas secciones pasan las pruebas del repositorio. Eso da un total de 258,134 trayectorias, con 155,144 que pasan las pruebas utilizadas para SFT. También excluimos tareas que se superponen con SWE-bench Verificado por (repositorio, commit) o descripción del problema para descontaminar.

Escalabilidad + eficiencia: 15.6M completaciones de API 452B tokens de entrada 2.9B tokens de salida 90% tasa de aciertos en caché Costo estimado: ≈$130K

Infraestructura de entrenamiento: Base: Qwen3-32B 64x H100 (8 nodos) FSDP2 + paralelismo secuencial Ulysses Atención Flash 2 + punto de control de gradiente Empaquetado de secuencias

Resultados en SWE-bench Verificado (500 problemas): CoderForge-Preview-32B: 59.4% pass@1, 78.56% pass@16 CoderForge-Preview-4B: 43.0% pass@1

Limitaciones: todas las trayectorias provienen de un solo conjunto de herramientas/escalas y principalmente de tareas de corrección de errores, sin colaboración de usuarios a mitad de trayectoria, por lo que la transferencia a otros conjuntos de herramientas/escalas o configuraciones interactivas puede disminuir. Próximo: aumentar la generación de datos (generar más tareas y trayectorias), utilizar múltiples conjuntos de herramientas/escalas/permutaciones de indicaciones, y avanzar más allá de SFT con RL agente.

Liberamos el conjunto de datos y las trazas de evaluación: - Datos: - Trazas: - Blog: ¡Felicidades a @AlpayAriyak, @QingyangWu1 y @ZhongzhuZhou!!

Parte superior

Clasificación

Favoritos