Магазин DApp | Центр Web3 для подій та ігор

Актуальні теми

Ми відкриваємо кодовий код CoderForge-Preview — 258K траєкторій кодування-агента з тестами (155K pass | 103K fail). Тонке налаштування Qwen3-32B на проходному підмножині підвищує SWE-bench Verified: 23,0% → 59,4% pass@1, і він займає #1 місце серед відкритих даних ≤32B параметрів. Потік у конвеєрі 🧵 генерації даних

Ми об'єднали та відфільтрували три відкриті джерела завдань → 51 тис. завдань у 1 655 репозиторіях з: - R2E-Gym: 4 216 завдань (9 репозиторій) - SWE-Smith: 37 221 завдання (124 репозиторії) - SWE-Rebench: 9 764 завдання (1 577 репозиторій)

Налаштування генерації траєкторії: - Вчитель: Qwen3-Coder-480B - Scaffold: OpenHands v0.52.1 - Інструменти: виконання bash, редагування файлів, міркування, завершення - Відбір проб: температура 0,7, top_p 0,8, max_tokens 32 768 - Кілька траєкторій на завдання (8 для R2E-Gym/SWE-Rebench, 4 для SWE-Smith) - Фільтрація: для наших експериментів з SFT ми зберігаємо лише траєкторії, які проходять тести

(фільтрація + «перевірено тестом»): Фільтрація: ми зберігаємо траєкторії, фінальний патч яких проходить тести репозиторії. Загалом 258 134 траєкторії, з яких 155 144 використано для SFT. Ми також виключаємо завдання, що накладаються на SWE-bench Verified by (repo, commit) або опис випуску для дезінфекції.

Масштаб + ефективність: 15,6 млн завершень API Токени запитів 452B Токени виводу 2.9B 90% рівень попадання кешу Орієнтовна вартість: ≈$130K

Інфраструктура навчання: База: Qwen3-32B 64x H100 (8 вузлів) FSDP2 + паралелізм послідовностей Улісса Flash Attention 2 + градієнтне контрольне положення Пакування послідовностей

Результати на SWE-bench Verified (500 випусків): CoderForge-Preview-32B: 59,4% pass@1, 78,56% pass@16 CoderForge-Preview-4B: 43,0% pass@1

Обмеження: усі траєкторії походять з одного риштування/інструментального стеку і здебільшого завдань на виправлення помилок, без співпраці користувачів на посередині траєкторії, тому перехід до інших риштувань/інструментів або інтерактивних налаштувань може зникнути. Далі: масштабуйте генерацію даних (генеруйте більше завдань і траєкторій), використовуйте кілька каркасів/інструментів/перестановок підказок і виходьте за межі SFT з агентним RL.

Ми публікуємо набір даних і сліди оцінки: - Дані: - Сліди: - Блог: Вітаємо @AlpayAriyak, @QingyangWu1 і @ZhongzhuZhou!!

Найкращі

Рейтинг

Вибране