Cửa hàng DApp | Trung tâm Web3 với các sự kiện và trò chơi

Chủ đề thịnh hành

Ôi trời, @sanchitmonga22 Nhóm RunAnywhereAI đã tạo ra MetalRT trong 48 giờ, trực tiếp nâng cao tốc độ giải mã LLM trên Apple Silicon lên một tầm cao mới, với cùng một mô hình 4-bit trên M4 Max, Qwen3-0.6B chạy đến 658 tok/s, LFM 2.5-1.2B 570 tok/s, token đầu tiên chỉ mất 6.6ms. So với cùng một tệp, đã bỏ xa MLX của Apple 19%, đánh bại llama.cpp trung bình 67%, uzu và Ollama thì không cần phải nói, toàn bộ đều tụt lại phía sau. Apple luôn kêu gọi ưu tiên địa phương cho Apple Intelligence, nhưng tiềm năng phần cứng thực sự đã bị lãng phí bởi nhiều khung khác nhau, giống như bị phong ấn, MetalRT trực tiếp tương tác với Metal API, loại bỏ lớp Python, lớp trừu tượng và những chi phí lộn xộn khác, được thiết kế riêng cho bộ nhớ thống nhất + GPU, mới có thể tạo ra hiệu suất cực đỉnh này. Giá trị thực sự của mô hình địa phương không bao giờ chỉ là "có thể chạy là được", mà là chạy đủ nhanh, đủ tiết kiệm, đủ riêng tư, mới thực sự thay thế được đám mây. 6.6ms cho token đầu tiên có nghĩa là trò chuyện, giọng nói, bổ sung mã, gọi JSON của Agent gần như không có độ trễ; tốc độ tok/s cao mới có thể hỗ trợ ngữ cảnh dài, nhiều công cụ song song mà không bị kẹt. Thêm vào đó là không cần kết nối mạng, không cần đăng ký, dữ liệu không rời khỏi thiết bị, đây mới là hình mẫu của AI địa phương ở cấp độ năng suất. Nhanh hơn không phải để khoe con số tok/s, mà là để cho mô hình nhỏ có thể đánh bại trải nghiệm phản hồi của mô hình lớn trên đám mây ngay trên thiết bị của Apple. AI trên thiết bị trong hệ sinh thái Apple, vốn dĩ nên được như vậy, giờ mới thực sự bắt đầu tăng tốc. Apple thực sự là người ngồi ở nhà, cộng đồng mã nguồn mở đang tích cực xây dựng mở ra hộp Pandora, AI địa phương thật thoải mái, chỉ hy vọng sẽ có những mô hình thông minh hơn xuất hiện.

Hàng đầu

Thứ hạng

Yêu thích