Estamos a abrir o código do CoderForge-Preview — 258K trajetórias de agentes de codificação testadas e verificadas (155K aprovadas | 103K reprovadas). O ajuste fino do Qwen3-32B no subconjunto aprovado aumenta o SWE-bench Verificado: 23,0% → 59,4% pass@1, e ocupa o 1º lugar entre os modelos de dados abertos com ≤32B parâmetros. Thread sobre o pipeline de geração de dados 🧵
Combinámos e filtrámos três fontes de tarefas abertas → 51K tarefas em 1,655 repositórios de: - R2E-Gym: 4,216 tarefas (9 repositórios) - SWE-Smith: 37,221 tarefas (124 repositórios) - SWE-Rebench: 9,764 tarefas (1,577 repositórios)
Configuração de geração de trajetória: - Professor: Qwen3-Coder-480B - Estrutura: OpenHands v0.52.1 - Ferramentas: execução bash, edição de arquivos, raciocínio, conclusão - Amostragem: temp 0.7, top_p 0.8, max_tokens 32,768 - Múltiplas trajetórias por tarefa (8 para R2E‑Gym/SWE‑Rebench, 4 para SWE‑Smith) - Filtragem: para nossos experimentos de SFT, mantemos apenas trajetórias que passam nos testes
(filtragem + "test-verified"): Filtragem: mantemos trajetórias cujos patches finais passam nos testes do repositório. Isso resulta em 258.134 trajetórias no total, com 155.144 passando nos testes usadas para SFT. Também excluímos tarefas que se sobrepõem ao SWE-bench Verificado por (repositório, commit) ou descrição do problema para descontaminar.
Escala + eficiência: 15.6M de conclusões de API 452B de tokens de prompt 2.9B de tokens de saída 90% de taxa de acerto de cache Custo estimado: ≈$130K
Infraestrutura de treino: Base: Qwen3-32B 64x H100 (8 nós) FSDP2 + paralelismo sequencial Ulysses Flash Attention 2 + verificação de gradiente Empacotamento de sequência
Resultados no SWE-bench Verificado (500 problemas): CoderForge-Preview-32B: 59,4% pass@1, 78,56% pass@16 CoderForge-Preview-4B: 43,0% pass@1
Limitações: todas as trajetórias vêm de um único conjunto de ferramentas/scaffold e, na sua maioria, tarefas de correção de bugs, sem colaboração do usuário em meio à trajetória, portanto, a transferência para outros scaffolds/ferramentas ou configurações interativas pode diminuir. Próximo: aumentar a geração de dados (gerar mais tarefas e trajetórias), usar múltiplos scaffolds/ferramentas/permutacões de prompt, e ir além do SFT com RL agente.
Liberamos o conjunto de dados e os rastros de avaliação: - Dados: - Rastros: - Blog: Parabéns a @AlpayAriyak, @QingyangWu1 e @ZhongzhuZhou!!
87