Ao criar produtos de IA, o mais importante é "aprender fazendo" 🥲🥲🥲 Ontem, postei casualmente uma ferramenta de gerenciamento de arquivos por IA, mas não esperava que tanta gente se interessasse. Inicialmente, eu só usava a análise de texto do Qwen 2.5 para classificação. Como resultado, a área de comentários pergunta: Pode ser diretamente multimodal? Depois, discuti com Gemini e ChatGPT, até mesmo modelos pequenos locais podem tentar multimodalidade, então adicionei: BGE, CLIP, Whisper, Qwen, um total de 4 SLMs, prontos para fortalecer as funções de organização e recuperação de "imagens", "vídeos" e "PDF". 😅 Hoje, troquei a versão N com Gemini, e ainda é apenas um protótipo. Mas pense em ele poder pesquisar diretamente por linguagem natural: "Me ajude a encontrar o PPT com um resumo do projeto no final de 2025" "Encontre o vídeo meu e da minha mãe indo para Huangshan no ano passado" Isso é muito legal! Aqui está minha versão mais recente do SLM, então, se você tiver interesse, por favor, discutam juntos! Além disso, nosso grupo de codificação do Vibe é eficaz por muito tempo, basta preencher o formulário: