Làm sản phẩm AI, quả thật điều quan trọng nhất là "học trong khi làm" 🥲🥲🥲 Hôm qua chỉ đơn giản là chia sẻ công cụ quản lý tài liệu AI mà mình đã làm, không ngờ lại có nhiều người quan tâm đến vậy. Ban đầu mình chỉ sử dụng phân tích văn bản Qwen 2.5 để phân loại. Kết quả là có người trong phần bình luận hỏi: có thể làm đa phương thức trực tiếp không? Sau đó mình đã thảo luận với Gemini và ChatGPT, ngay cả với mô hình nhỏ cục bộ cũng có thể thử nghiệm đa phương thức, vì vậy mình đã thêm vào: BGE, CLIP, Whisper, Qwen tổng cộng 4 loại SLM, chuẩn bị tăng cường chức năng tổ chức và tìm kiếm cho các tài liệu như "hình ảnh", "video", "PDF". 😅 Hôm nay mình và Gemini đã sửa đổi phiên bản N, vẫn chỉ là một hình mẫu. Nhưng nghĩ mà xem nếu có thể tìm kiếm trực tiếp bằng ngôn ngữ tự nhiên: "Giúp tôi tìm ra PPT có tóm tắt dự án vào cuối năm 2025" "Tìm video mà tôi và mẹ đã đi Hoàng Sơn năm ngoái" Thì thật là tuyệt vời! Dưới đây là SLM mà mình đã thử nghiệm phiên bản mới nhất, chào mừng những ai quan tâm cùng thảo luận! Ngoài ra, nhóm Vibe coding của chúng tôi vẫn hoạt động lâu dài, chỉ cần điền vào biểu mẫu là được: