*Lớn* phát hành mã nguồn mở AI hôm nay. Liệu Mỹ có thể thắng trong cuộc đua Open AI? Cuộc trò chuyện của tôi với @natolambert và @soldni của @allen_ai về việc ra mắt Olmo 3 00:00 – Mở đầu lạnh 00:39 – Chào mừng & thông báo lớn hôm nay 01:18 – Giới thiệu về gia đình mô hình Olmo 3 02:07 – Mô hình "cơ sở" thực sự là gì (và tại sao chúng quan trọng) 05:51 – Dolma 3: dữ liệu đứng sau Olmo 3 08:06 – Hiệu suất so với Qwen, Gemma, DeepSeek 10:28 – Ý nghĩa thực sự của mã nguồn mở (và tại sao nó hiếm) 12:51 – Các điểm kiểm tra trung gian, tính minh bạch, và tại sao AI2 công bố mọi thứ 16:37 – Tại sao Qwen có mặt ở khắp mọi nơi (bao gồm cả các startup ở Mỹ) 18:31 – Tại sao các phòng thí nghiệm Trung Quốc đi theo mã nguồn mở (và tại sao các phòng thí nghiệm Mỹ không làm) 20:28 – Bên trong ATOM: phản ứng của Mỹ đối với sự bùng nổ mô hình của Trung Quốc 22:13 – Sự gia tăng của "các mô hình tư duy" và mở rộng thời gian suy diễn 35:58 – Toàn bộ quy trình Olmo, được giải thích đơn giản 46:52 – Huấn luyện trước: dữ liệu, quy mô, và tránh các đỉnh thảm khốc 50:27 – Huấn luyện giữa (vá đuôi) và tránh rò rỉ kiểm tra 52:06 – Tại sao huấn luyện ngữ cảnh dài lại quan trọng 55:28 – SFT: xây dựng nền tảng cho lý luận 1:04:53 – Tinh chỉnh sở thích & tại sao DPO vẫn hoạt động 1:10:51 – Phần khó: RLVR, chuỗi lý luận dài, và nỗi đau hạ tầng 1:13:59 – Tại sao RL lại khắc nghiệt về mặt kỹ thuật 1:18:17 – Thuế phức tạp so với cơn sốt AGI 1:21:58 – Cách mọi người có thể đóng góp cho tương lai của AI 1:27:26 – Những suy nghĩ cuối cùng
... cuộc đua AI **mã nguồn mở**, d'oh 🤦‍♂️
33,57K