Tienda de dapps | Hub de Web3 para eventos y juegos

Temas en tendencia

Estamos abriendo CoderForge-Preview — trayectorias de agentes de codificación verificados por pruebas de 258K (155K aprobados | 103K fallidos). El ajuste fino de Qwen3-32B en el subconjunto de paso mejora SWE-bench Verified: 23,0% → 59,4% pass@1, y ocupa el puesto #1 entre los parámetros de modelos de datos abiertos ≤32B. Hilo en la cadena 🧵 de generación de datos

Combinamos y filtramos tres fuentes abiertas de tareas → 51.000 tareas distribuidas en 1.655 repositorios de: - R2E-Gym: 4.216 tareas (9 reposos) - SWE-Smith: 37.221 tareas (124 reposos) - SWE-Rebench: 9.764 tareas (1.577 reposos)

Configuración de generación de trayectoria: - Profesor: Qwen3-Coder-480B - Andamio: OpenHands v0.52.1 - Herramientas: ejecución de bash, edición de archivos, razonamiento, completación - Muestreo: temperatura 0,7, top_p 0,8, max_tokens 32.768 - Múltiples trayectorias por tarea (8 para R2E-Gimnasio/SWE-Rebench, 4 para SWE-Smith) - Filtrado: para nuestros experimentos SFT, mantenemos solo trayectorias que superan las pruebas

(filtrado + "verificado por prueba"): Filtrado: mantenemos trayectorias cuyo parche final pasa las pruebas de repositorio. Eso da un total de 258.134 trayectorias, de las cuales 155.144 se han utilizado para la SFT. También excluimos tareas que se solapan en el banco de SWE Verificado por (repo, commit) o en la descripción del problema para descontaminar.

Escala + eficiencia: 15,6M completaciones de API Fichas de aviso 452B 2,9 mil millones de tokens de salida 90% de tasa de acerto en caché Coste estimado: ≈130.000 dólares

Infraestructura de formación: Base: Qwen3-32B 64x H100 (8 nodos) Paralelismo de secuencias FSDP2 + Ulises Atención Parpadeante 2 + puntos de control de gradiente Empaquetado de secuencias

Resultados en SWE-bench verificados (500 números): CoderForge-Preview-32B: 59,4% pass@1, 78,56% pass@16 CoderForge-Preview-4B: 43,0% pass@1

Limitaciones: todas las trayectorias provienen de una sola pila de andamios/herramientas y principalmente tareas de corrección de errores, sin colaboración entre usuarios a mitad de trayectoria, por lo que la transferencia a otros andamios/herramientas o entornos interactivos puede caer. A continuación: escala la generación de datos (genera más tareas y trayectorias), usa múltiples andamiajes/herramientas/permutaciones de prompts, y ve más allá de la SFT con RL agente.

Publicamos el conjunto de datos y las trazas de evaluación: - Datos: - Trazas: - Blog: ¡Enhorabuena a @AlpayAriyak, @QingyangWu1 y @ZhongzhuZhou!

Populares

Ranking

Favoritas