Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Tinker từ Thinking Machines đang ở giai đoạn GA là một trong những sản phẩm ra mắt đầu tiên trong một thời gian dài mà thực sự cảm thấy như một sản phẩm đào tạo.
Hầu hết các API fine-tune được lưu trữ (bao gồm cả kiểu OpenAI) đều tuyệt vời khi tất cả những gì bạn cần là một lần chạy SFT sạch sẽ, nhưng ngay khi bạn muốn làm bất cứ điều gì thậm chí hơi táo bạo: chương trình học tùy chỉnh, đánh giá trực tuyến, phần thưởng hình thành sau đào tạo, vòng lặp giống như RL, những mẹo gộp/bó lại kỳ lạ: bạn sẽ nhanh chóng gặp giới hạn và cuối cùng phải xây dựng lại một nửa ngăn xếp đào tạo.
Tinker cơ bản đảo ngược điều đó: nó cung cấp cho bạn một API đào tạo với các nguyên thủy cấp thấp (sample / forward_backward / optim_step / save_state), vì vậy bạn viết vòng lặp mà bạn thực sự muốn, và họ lo liệu các phần thường biến thành một tháng công việc hạ tầng (lập lịch, mở rộng, tạm dừng, phục hồi sau thất bại, lý do tại sao công việc này chết ở 93% và những thứ tương tự).
Nó cũng ưu tiên LoRA, điều này thực sự là mặc định đúng cho việc tùy chỉnh: bạn lặp lại nhanh hơn, chi phí vẫn hợp lý, bạn có thể giữ nhiều biến thể mà không cần sao chép các điểm kiểm tra khổng lồ, và việc phục vụ trở nên thực tế hơn rất nhiều. Tôi cũng thích rằng câu chuyện không mơ hồ: LoRA thực sự có thể đạt được fine-tuning đầy đủ trên nhiều tập dữ liệu sau đào tạo khi bạn thiết lập đúng, nhưng nếu bạn đang cố gắng nhồi nhét một sự thay đổi hành vi lớn vào một bộ điều hợp nhỏ (hoặc tập dữ liệu của bạn chỉ lớn hơn khả năng hiệu quả của bộ điều hợp), bạn sẽ cảm thấy nút thắt đó và nó sẽ không tự nhiên biến mất.
Nhược điểm thực sự duy nhất mà tôi thấy là ngưỡng mô hình nhỏ: nếu mục tiêu của bạn là các SLM nhỏ, thì công cụ này có lẽ không phải là lựa chọn. Dù sao, tôi rất hào hứng về nó. Không thể chờ xem mọi người sẽ xây dựng gì.
Hàng đầu
Thứ hạng
Yêu thích
