Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Estamos liberando el código de CoderForge-Preview: 258K trayectorias de agentes de codificación verificadas por pruebas (155K aprobadas | 103K fallidas).
Ajustar Qwen3-32B en el subconjunto aprobado aumenta SWE-bench Verificado: 23.0% → 59.4% pass@1, y ocupa el puesto #1 entre los modelos de datos abiertos ≤32B parámetros.
Hilo sobre el pipeline de generación de datos 🧵

Combinamos y filtramos tres fuentes de tareas abiertas → 51K tareas en 1,655 repositorios de:
- R2E-Gym: 4,216 tareas (9 repositorios)
- SWE-Smith: 37,221 tareas (124 repositorios)
- SWE-Rebench: 9,764 tareas (1,577 repositorios)
Configuración de generación de trayectorias:
- Maestro: Qwen3-Coder-480B
- Andamio: OpenHands v0.52.1
- Herramientas: ejecución de bash, edición de archivos, razonamiento, finalización
- Muestreo: temp 0.7, top_p 0.8, max_tokens 32,768
- Múltiples trayectorias por tarea (8 para R2E‑Gym/SWE‑Rebench, 4 para SWE‑Smith)
- Filtrado: para nuestros experimentos de SFT, solo mantenemos trayectorias que superan las pruebas
(filtrado + "test-verificado"):
Filtrado: mantenemos trayectorias cuyas últimas secciones pasan las pruebas del repositorio. Eso da un total de 258,134 trayectorias, con 155,144 que pasan las pruebas utilizadas para SFT.
También excluimos tareas que se superponen con SWE-bench Verificado por (repositorio, commit) o descripción del problema para descontaminar.
Escalabilidad + eficiencia:
15.6M completaciones de API
452B tokens de entrada
2.9B tokens de salida
90% tasa de aciertos en caché
Costo estimado: ≈$130K
Infraestructura de entrenamiento:
Base: Qwen3-32B
64x H100 (8 nodos)
FSDP2 + paralelismo secuencial Ulysses
Atención Flash 2 + punto de control de gradiente
Empaquetado de secuencias
Resultados en SWE-bench Verificado (500 problemas):
CoderForge-Preview-32B: 59.4% pass@1, 78.56% pass@16
CoderForge-Preview-4B: 43.0% pass@1
Limitaciones: todas las trayectorias provienen de un solo conjunto de herramientas/escalas y principalmente de tareas de corrección de errores, sin colaboración de usuarios a mitad de trayectoria, por lo que la transferencia a otros conjuntos de herramientas/escalas o configuraciones interactivas puede disminuir.
Próximo: aumentar la generación de datos (generar más tareas y trayectorias), utilizar múltiples conjuntos de herramientas/escalas/permutaciones de indicaciones, y avanzar más allá de SFT con RL agente.
Liberamos el conjunto de datos y las trazas de evaluación:
- Datos:
- Trazas:
- Blog:
¡Felicidades a @AlpayAriyak, @QingyangWu1 y @ZhongzhuZhou!!
93
Parte superior
Clasificación
Favoritos
