Når man lager AI-produkter, er det viktigste å «lære ved å gjøre» 🥲🥲🥲 I går la jeg bare ut et AI-filhåndteringsverktøy i forbifarten, men jeg forventet ikke at så mange skulle være interessert. Opprinnelig brukte jeg bare Qwen 2.5 tekstanalyse for klassifisering. Som et resultat spør kommentarfeltet: Kan det være direkte multimodalt? Senere diskuterte jeg med Gemini og ChatGPT at selv lokale små modeller kan prøve multimodalitet, så jeg la til: BGE, CLIP, Whisper, Qwen, totalt 4 SLM-er, klare til å styrke organiseringen og hentefunksjonene til «bilder», «videoer» og «PDF». 😅 I dag endret jeg N-versjonen med Gemini, og det er fortsatt bare en prototype. Men tenk på at det kan søke direkte ved naturlig språk: "Hjelp meg å finne PPT-en med et prosjektsammendrag ved slutten av 2025" "Finn videoen av meg og moren min som dro til Huangshan i fjor" Det er ganske kult! Her er min nyeste versjon av SLM, så hvis du er interessert, diskuter den gjerne sammen! I tillegg er Vibe-kodingsgruppen vår effektiv lenge, bare fyll ut skjemaet: