Giới thiệu Báo cáo Kỹ thuật GLM-5! Sau khi ra mắt GLM-5, chúng tôi sẽ tiết lộ cách nó được xây dựng. Những đổi mới chính bao gồm: - Chấp nhận DSA: Giảm đáng kể chi phí đào tạo và suy diễn trong khi vẫn giữ được độ trung thực của ngữ cảnh dài - Hạ tầng RL không đồng bộ: Cải thiện đáng kể hiệu quả sau đào tạo bằng cách tách biệt việc tạo ra khỏi đào tạo - Thuật toán RL của tác nhân: Cho phép mô hình học hỏi từ các tương tác phức tạp, dài hạn một cách hiệu quả hơn Thông qua những đổi mới này, GLM-5 đạt được hiệu suất SOTA trong số các mô hình mã nguồn mở, với kết quả đặc biệt mạnh mẽ trong các nhiệm vụ kỹ thuật phần mềm thực tế.