Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

karminski-牙医
Một lập trình viên, người đi xe đạp đường trường, thầy bói máy chủ, người thu gom rác thải điện tử, đồng sáng lập KCORES, cựu giám đốc tại IllaSoft, KingsoftOffice, Juejin.
Tin tốt! Thẻ game giờ có thể sử dụng SAM-Audio rồi!
Hôm trước tôi đã thử nghiệm mô hình phân tách âm thanh lớn mới ra của Meta, SAM-Audio, nhưng vấn đề lớn nhất của mô hình này là nó quá lớn, trong thực tế, phiên bản large tiêu tốn tới 90GB bộ nhớ đồ họa. Giờ có tin tốt, một blogger đã loại bỏ những phần không quan trọng trong mô hình (bộ mã hóa và bộ sắp xếp, thực ra mô hình này còn hỗ trợ chỉ định nhạc cụ trong video để trích xuất, nhưng cũng có thể mô tả trực tiếp bằng văn bản để trích xuất nhạc cụ nào đó. Vì vậy, phần chức năng này đã bị loại bỏ).
Hiện tại, phiên bản small chỉ cần 4-6GB bộ nhớ đồ họa, phiên bản large cũng chỉ cần 10GB bộ nhớ đồ họa, cơ bản là những thẻ game tốt một chút đều có thể chạy được, và tác giả còn tạo ra một gói cài đặt một cú nhấp chuột, chỉ cần nhấp vào là cài đặt và sử dụng, không cần phải lo lắng gì cả. Những bạn có nhu cầu trích xuất nhạc nền bài hát hoặc tách nhạc cụ, giọng hát có thể thử nghiệm.

28
Mô hình phân tách lớp mã nguồn mở đã đến nhanh như vậy sao?
Mang đến cho mọi người bài kiểm tra thực tế của mô hình Qwen-Image-Layered vừa được Alibaba phát hành, đây là một mô hình lớn có thể chia hình ảnh thành các lớp khác nhau, mô hình này được tinh chỉnh dựa trên Qwen-Image.
Bài kiểm tra của tôi lần này bao gồm các tình huống mà mô hình này mạnh (áp phích), kiểm tra tuân thủ hướng dẫn (chỉ định mục tiêu trích xuất), xử lý biên (tóc), và kiểm tra giới hạn (toàn bộ là nhãn dán, nếu mỗi nhãn dán là một lớp thì có thể trích xuất hơn 50 lớp).
Nói thẳng vào kết luận, trước tiên mô hình vẫn quá lớn, vì mô hình này dựa trên Qwen-Image nên là một mô hình 20B, tôi đã thử nghiệm bằng HuggingFace Zero GPU, mỗi lần chạy khoảng 2 phút, mô hình thực sự có thể tách lớp, và xử lý biên khá tốt, nhưng độ ổn định cần được tối ưu hóa, trong bài kiểm tra của tôi có thể xuất ra 4 lớp, nhưng 8 hoặc 10 lớp thì bị lỗi, nghi ngờ có thể là do vượt quá thời gian chờ của Zero GPU hoặc lỗi (GPU là H200, không thể nào hết bộ nhớ đồ họa), kích thước đầu ra chỉ có 544*736, chính thức cũng khuyến nghị độ phân giải 640, điều này cũng cần được cải thiện, và mô hình vẫn quá lớn, 20B, hy vọng có thể tối ưu hóa kích thước.
25
Khóc rồi, SOTA chỉ là bề ngoài, làm việc thực sự vẫn phải dựa vào "Mô hình Bò Ngựa"
Người sáng lập OpenRouter, Alex Atallah vừa đăng một tweet, nói rằng mình vẫn sử dụng nhiều nhất là Kimi-K2-0711 (Kimi-K2-Instruct tháng 7).
Sau đó là openai-o4-mini-high, Claude-3.7-Sonnet, gpt-oss-120b, openai-o3.
Lần đầu tiên nhìn thấy, tôi nghĩ người này có phải đã mất mạng không, lâu rồi không dùng mô hình lớn mới?
Nhưng suy nghĩ kỹ lại, không đúng, rất không đúng. Đây mới thực sự là cách sử dụng của Power User, quá thực tế.
Nếu vào thời điểm này tìm một mô hình đủ lớn với ngữ cảnh (128K), hiệu suất sử dụng được (SWE-Bench Verified > 65), khả năng Agent mạnh (Tau2-bench > 65), kiến thức rộng lớn (số lượng tham số khá lớn), và trả lời nhanh (không phải mô hình Thinking), có vẻ chỉ còn Kimi-K2-Instruct.
Vậy suy ra Alex Atallah chắc hẳn phần lớn công việc đều là xử lý tài liệu (ngữ cảnh dài, đặc biệt là đã sử dụng 13.4M token), sử dụng công cụ phân tích và viết báo cáo (khả năng Agent), tất cả những điều này Kimi-K2-Instruct đều có thể làm được, sau đó viết một số kịch bản (o4 và Claude-3.7-Sonnet làm dự phòng, thậm chí đóng gói thành Agent để Kimi-k2 gọi những mô hình này để viết kịch bản).
Cuối cùng Kimi-k2 còn đáp ứng được điều quan trọng nhất, đó là bảo mật dữ liệu, vì mô hình có trọng số mở, có thể triển khai trên máy chủ riêng, bất kỳ thông tin nhạy cảm nào cũng sẽ không bị rò rỉ cho OpenAI hoặc Anthropic. Thậm chí mô hình GPT-OSS-120B bên dưới có lẽ cũng tồn tại với ý nghĩa này.
Tôi có thể hiểu tại sao các mô hình lớn mới hiện nay lại cạnh tranh về khả năng Agent, con người trực tiếp sử dụng AI chỉ là giai đoạn trung gian, người dùng cao cấp đã sử dụng AI để điều khiển AI rồi. Một mô hình Agent chuyên biệt dùng để nhận và gửi tất cả ngữ cảnh AI chắc chắn sẽ là mô hình được sử dụng nhiều nhất.


33
Hàng đầu
Thứ hạng
Yêu thích
