Estamos open-source CoderForge-Preview — trajetórias de agentes de codificação verificados por testes de 258K (155K aprovação | 103K reprovação). Ajustar Qwen3-32B no subconjunto de passagem impulsiona o SWE-bench Verified: 23,0% → 59,4% pass@1, e ele ocupa a posição #1 entre os parâmetros de modelos de dados abertos ≤32B. Thread no pipeline 🧵 de geração de dados
Combinamos e filtramos três fontes abertas de tarefas → 51 mil tarefas distribuídas por 1.655 repositórios de: - R2E-Gym: 4.216 tarefas (9 reposições) - SWE-Smith: 37.221 tarefas (124 repositórios) - SWE-Rebench: 9.764 tarefas (1.577 repositórios)
Configuração de geração de trajetória: - Professor: Qwen3-Coder-480B - Andaime: OpenHands v0.52.1 - Ferramentas: execução de bash, edição de arquivos, raciocínio, conclusão - Amostragem: temperatura 0,7, top_p 0,8, max_tokens 32.768 - Trajetórias múltiplas por tarefa (8 para R2E-Ginásio/SWE-Rebench, 4 para SWE-Smith) - Filtragem: para nossos experimentos de SFT, mantemos apenas trajetórias que passam nos testes
(filtragem + "test-verificado"): Filtragem: mantemos trajetórias cujo patch final passa nos testes de repositório. Isso resulta em 258.134 trajetórias totais, com 155.144 testes de aprovação usadas para SFT. Também excluímos tarefas que se sobrepõem ao banco de SWE Verificado por (repo, commit) ou descrição de problema para descontaminação.
Escala + eficiência: 15,6M de completações de API Tokens de prompt 452B 2,9 bilhões de tokens de saída 90% de taxa de acerto no cache Custo estimado: ≈$130K
Infraestrutura de treinamento: Base: Qwen3-32B 64x H100 (8 nós) Paralelismo de sequência FSDP2 + Ulysses Flash Attention 2 + checkpointing de gradiente Empacotamento de Sequência
Resultados no SWE-bench Verified (500 edições): CoderForge-Preview-32B: 59,4% pass@1, 78,56% pass@16 CoderForge-Preview-4B: 43,0% pass@1
Limitações: todas as trajetórias vêm de uma única pilha de andaimes/ferramentas e principalmente tarefas de correção de bugs, sem colaboração entre usuários no meio da trajetória, então a transferência para outros andaimes/ferramentas ou configurações interativas pode ser interrompida. Em seguida: amplie a geração de dados (gere mais tarefas e trajetórias), use múltiplas estruturas/ferramentas/permutações de prompts e vá além do SFT com RL agente.
Divulgamos o conjunto de dados e os trilhos de avaliação: - Dados: - Traços: - Blog: Parabéns a @AlpayAriyak, @QingyangWu1 e @ZhongzhuZhou!!
92