Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Estamos abriendo CoderForge-Preview — trayectorias de agentes de codificación verificados por pruebas de 258K (155K aprobados | 103K fallidos).
El ajuste fino de Qwen3-32B en el subconjunto de paso mejora SWE-bench Verified: 23,0% → 59,4% pass@1, y ocupa el puesto #1 entre los parámetros de modelos de datos abiertos ≤32B.
Hilo en la cadena 🧵 de generación de datos

Combinamos y filtramos tres fuentes abiertas de tareas → 51.000 tareas distribuidas en 1.655 repositorios de:
- R2E-Gym: 4.216 tareas (9 reposos)
- SWE-Smith: 37.221 tareas (124 reposos)
- SWE-Rebench: 9.764 tareas (1.577 reposos)
Configuración de generación de trayectoria:
- Profesor: Qwen3-Coder-480B
- Andamio: OpenHands v0.52.1
- Herramientas: ejecución de bash, edición de archivos, razonamiento, completación
- Muestreo: temperatura 0,7, top_p 0,8, max_tokens 32.768
- Múltiples trayectorias por tarea (8 para R2E-Gimnasio/SWE-Rebench, 4 para SWE-Smith)
- Filtrado: para nuestros experimentos SFT, mantenemos solo trayectorias que superan las pruebas
(filtrado + "verificado por prueba"):
Filtrado: mantenemos trayectorias cuyo parche final pasa las pruebas de repositorio. Eso da un total de 258.134 trayectorias, de las cuales 155.144 se han utilizado para la SFT.
También excluimos tareas que se solapan en el banco de SWE Verificado por (repo, commit) o en la descripción del problema para descontaminar.
Escala + eficiencia:
15,6M completaciones de API
Fichas de aviso 452B
2,9 mil millones de tokens de salida
90% de tasa de acerto en caché
Coste estimado: ≈130.000 dólares
Infraestructura de formación:
Base: Qwen3-32B
64x H100 (8 nodos)
Paralelismo de secuencias FSDP2 + Ulises
Atención Parpadeante 2 + puntos de control de gradiente
Empaquetado de secuencias
Resultados en SWE-bench verificados (500 números):
CoderForge-Preview-32B: 59,4% pass@1, 78,56% pass@16
CoderForge-Preview-4B: 43,0% pass@1
Limitaciones: todas las trayectorias provienen de una sola pila de andamios/herramientas y principalmente tareas de corrección de errores, sin colaboración entre usuarios a mitad de trayectoria, por lo que la transferencia a otros andamios/herramientas o entornos interactivos puede caer.
A continuación: escala la generación de datos (genera más tareas y trayectorias), usa múltiples andamiajes/herramientas/permutaciones de prompts, y ve más allá de la SFT con RL agente.
Publicamos el conjunto de datos y las trazas de evaluación:
- Datos:
- Trazas:
- Blog:
¡Enhorabuena a @AlpayAriyak, @QingyangWu1 y @ZhongzhuZhou!
92
Populares
Ranking
Favoritas
