Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Estamos open-source CoderForge-Preview — trajetórias de agentes de codificação verificados por testes de 258K (155K aprovação | 103K reprovação).
Ajustar Qwen3-32B no subconjunto de passagem impulsiona o SWE-bench Verified: 23,0% → 59,4% pass@1, e ele ocupa a posição #1 entre os parâmetros de modelos de dados abertos ≤32B.
Thread no pipeline 🧵 de geração de dados

Combinamos e filtramos três fontes abertas de tarefas → 51 mil tarefas distribuídas por 1.655 repositórios de:
- R2E-Gym: 4.216 tarefas (9 reposições)
- SWE-Smith: 37.221 tarefas (124 repositórios)
- SWE-Rebench: 9.764 tarefas (1.577 repositórios)
Configuração de geração de trajetória:
- Professor: Qwen3-Coder-480B
- Andaime: OpenHands v0.52.1
- Ferramentas: execução de bash, edição de arquivos, raciocínio, conclusão
- Amostragem: temperatura 0,7, top_p 0,8, max_tokens 32.768
- Trajetórias múltiplas por tarefa (8 para R2E-Ginásio/SWE-Rebench, 4 para SWE-Smith)
- Filtragem: para nossos experimentos de SFT, mantemos apenas trajetórias que passam nos testes
(filtragem + "test-verificado"):
Filtragem: mantemos trajetórias cujo patch final passa nos testes de repositório. Isso resulta em 258.134 trajetórias totais, com 155.144 testes de aprovação usadas para SFT.
Também excluímos tarefas que se sobrepõem ao banco de SWE Verificado por (repo, commit) ou descrição de problema para descontaminação.
Escala + eficiência:
15,6M de completações de API
Tokens de prompt 452B
2,9 bilhões de tokens de saída
90% de taxa de acerto no cache
Custo estimado: ≈$130K
Infraestrutura de treinamento:
Base: Qwen3-32B
64x H100 (8 nós)
Paralelismo de sequência FSDP2 + Ulysses
Flash Attention 2 + checkpointing de gradiente
Empacotamento de Sequência
Resultados no SWE-bench Verified (500 edições):
CoderForge-Preview-32B: 59,4% pass@1, 78,56% pass@16
CoderForge-Preview-4B: 43,0% pass@1
Limitações: todas as trajetórias vêm de uma única pilha de andaimes/ferramentas e principalmente tarefas de correção de bugs, sem colaboração entre usuários no meio da trajetória, então a transferência para outros andaimes/ferramentas ou configurações interativas pode ser interrompida.
Em seguida: amplie a geração de dados (gere mais tarefas e trajetórias), use múltiplas estruturas/ferramentas/permutações de prompts e vá além do SFT com RL agente.
Divulgamos o conjunto de dados e os trilhos de avaliação:
- Dados:
- Traços:
- Blog:
Parabéns a @AlpayAriyak, @QingyangWu1 e @ZhongzhuZhou!!
92
Melhores
Classificação
Favoritos
