Chúng tôi đang mở mã nguồn CoderForge-Preview — 258K quỹ đạo tác nhân lập trình đã được kiểm tra (155K đỗ | 103K trượt). Việc tinh chỉnh Qwen3-32B trên tập hợp đỗ giúp tăng cường SWE-bench Verified: 23.0% → 59.4% pass@1, và nó đứng thứ #1 trong số các mô hình dữ liệu mở ≤32B tham số. Chủ đề về quy trình tạo dữ liệu 🧵
Chúng tôi đã kết hợp và lọc ba nguồn nhiệm vụ mở → 51K nhiệm vụ từ 1,655 kho: - R2E-Gym: 4,216 nhiệm vụ (9 kho) - SWE-Smith: 37,221 nhiệm vụ (124 kho) - SWE-Rebench: 9,764 nhiệm vụ (1,577 kho)
Cài đặt tạo quỹ đạo: - Giáo viên: Qwen3-Coder-480B - Giàn giáo: OpenHands v0.52.1 - Công cụ: thực thi bash, chỉnh sửa tệp, lý luận, hoàn thành - Lấy mẫu: nhiệt độ 0.7, top_p 0.8, max_tokens 32,768 - Nhiều quỹ đạo cho mỗi nhiệm vụ (8 cho R2E‑Gym/SWE‑Rebench, 4 cho SWE‑Smith) - Lọc: cho các thí nghiệm SFT của chúng tôi, chúng tôi chỉ giữ lại các quỹ đạo vượt qua bài kiểm tra
(lọc + “đã kiểm tra thử nghiệm”): Lọc: chúng tôi giữ lại các quỹ đạo mà phần cuối cùng của chúng vượt qua các bài kiểm tra repo. Điều đó tạo ra tổng cộng 258,134 quỹ đạo, với 155,144 quỹ đạo vượt qua bài kiểm tra được sử dụng cho SFT. Chúng tôi cũng loại trừ các nhiệm vụ chồng chéo với SWE-bench Được xác minh bởi (repo, commit) hoặc mô tả vấn đề để làm sạch.
Quy mô + hiệu suất: 15.6 triệu lần hoàn thành API 452 tỷ token yêu cầu 2.9 tỷ token đầu ra Tỷ lệ trúng cache 90% Chi phí ước tính: ≈130K$
Cơ sở hạ tầng đào tạo: Cơ sở: Qwen3-32B 64x H100 (8 nút) FSDP2 + song song chuỗi Ulysses Flash Attention 2 + kiểm tra gradient Đóng gói chuỗi
Kết quả trên SWE-bench Đã xác minh (500 vấn đề): CoderForge-Preview-32B: 59.4% pass@1, 78.56% pass@16 CoderForge-Preview-4B: 43.0% pass@1
Hạn chế: tất cả các quỹ đạo đều đến từ một bộ khung/công cụ và chủ yếu là các nhiệm vụ sửa lỗi, không có sự hợp tác của người dùng trong quá trình, vì vậy việc chuyển giao sang các bộ khung/công cụ khác hoặc các thiết lập tương tác có thể giảm. Tiếp theo: mở rộng việc tạo dữ liệu (tạo nhiều nhiệm vụ và quỹ đạo hơn), sử dụng nhiều bộ khung/công cụ/kết hợp lời nhắc, và vượt ra ngoài SFT với RL có tác động.
Chúng tôi phát hành bộ dữ liệu và các dấu vết đánh giá: - Dữ liệu: - Dấu vết: - Blog: Chúc mừng @AlpayAriyak, @QingyangWu1, và @ZhongzhuZhou!!
113