Fazer produtos de AI, realmente o mais importante é "aprender fazendo" 🥲🥲🥲 Ontem, eu apenas compartilhei casualmente a ferramenta de gestão de documentos de AI que fiz, e não esperava que tantas pessoas estivessem interessadas. Inicialmente, eu apenas usei a análise de texto do Qwen 2.5 para classificação. O resultado foi que as pessoas na seção de comentários perguntaram: pode ser multimodal diretamente? Depois, conversei com a Gemini e o ChatGPT, e mesmo modelos pequenos locais podem tentar ser multimodais, então adicionei: BGE, CLIP, Whisper e Qwen, totalizando 4 SLM, e estou preparando para melhorar a organização e a funcionalidade de busca para arquivos como "imagens", "vídeos" e "PDFs". 😅 Hoje, com a Gemini, já fizemos a versão N, e ainda é apenas um esboço. Mas pensando bem, se pudéssemos buscar diretamente por linguagem natural: "Ajude-me a encontrar aquele PPT com o resumo do projeto do final de 2025" "Encontre o vídeo que eu e minha mãe fizemos no Huangshan no ano passado" Isso ainda seria bem legal! Abaixo estão as SLM que estou tentando na minha versão mais recente, fiquem à vontade para discutir se estiverem interessados! Além disso, nosso grupo de codificação Vibe está ativo por tempo indeterminado, é só preencher o formulário: