Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Wir geben CoderForge-Preview als Open Source frei – 258K testverifizierte Coding-Agent-Trajektorien (155K bestanden | 103K nicht bestanden).
Das Feintuning von Qwen3-32B auf dem bestandenen Teil erhöht SWE-bench Verified: 23,0 % → 59,4 % pass@1, und es belegt den 1. Platz unter den Open-Data-Modellen mit ≤32B Parametern.
Thread zur Daten-Generierungspipeline 🧵

Wir haben drei offene Aufgabenquellen kombiniert und gefiltert → 51K Aufgaben aus 1.655 Repos von:
- R2E-Gym: 4.216 Aufgaben (9 Repos)
- SWE-Smith: 37.221 Aufgaben (124 Repos)
- SWE-Rebench: 9.764 Aufgaben (1.577 Repos)
Einrichtung der Trajektoriegenerierung:
- Lehrer: Qwen3-Coder-480B
- Gerüst: OpenHands v0.52.1
- Werkzeuge: bash-Ausführung, Dateibearbeitung, Schlussfolgerungen, Vervollständigung
- Sampling: temp 0.7, top_p 0.8, max_tokens 32.768
- Mehrere Trajektorien pro Aufgabe (8 für R2E‑Gym/SWE‑Rebench, 4 für SWE‑Smith)
- Filterung: Für unsere SFT-Experimente behalten wir nur Trajektorien, die Tests bestehen.
(Filtern + "test-verifiziert"):
Filtern: Wir behalten Trajektorien, deren letzter Patch die Repo-Tests besteht. Das ergibt insgesamt 258.134 Trajektorien, von denen 155.144 testbeständig für SFT verwendet werden.
Wir schließen auch Aufgaben aus, die mit SWE-bench über (Repo, Commit) oder die Problembeschreibung überlappen, um zu dekontaminieren.
Skalierung + Effizienz:
15,6M API-Abschlüsse
452B Eingabetokens
2,9B Ausgabetokens
90% Cache-Trefferquote
Geschätzte Kosten: ≈130.000 $
Trainingsinfrastruktur:
Basis: Qwen3-32B
64x H100 (8 Knoten)
FSDP2 + Ulysses-Sequenzparallelismus
Flash Attention 2 + Gradient-Checkpointing
Sequenz-Packing
Ergebnisse auf SWE-bench Verifiziert (500 Probleme):
CoderForge-Preview-32B: 59,4% pass@1, 78,56% pass@16
CoderForge-Preview-4B: 43,0% pass@1
Einschränkungen: Alle Trajektorien stammen von einem einzigen Gerüst/Werkzeugstapel und bestehen hauptsächlich aus Bugfix-Aufgaben, ohne mid-Trajektorie Benutzerzusammenarbeit, sodass der Transfer zu anderen Gerüsten/Werkzeugen oder interaktiven Einstellungen möglicherweise abnimmt.
Nächste Schritte: Datenproduktion skalieren (mehr Aufgaben und Trajektorien generieren), mehrere Gerüste/Werkzeuge/Prompt-Variationen verwenden und über SFT mit agentischem RL hinausgehen.
Wir veröffentlichen den Datensatz und die Evaluierungsspuren:
- Daten:
- Spuren:
- Blog:
Herzlichen Glückwunsch an @AlpayAriyak, @QingyangWu1 und @ZhongzhuZhou!!
111
Top
Ranking
Favoriten
