När man skapar AI-produkter är det viktigaste att "lära sig genom att göra". 🥲🥲🥲 Igår postade jag bara ett AI-filhanteringsverktyg i förbifarten, men jag förväntade mig inte att så många skulle vara intresserade. Till en början använde jag bara Qwen 2.5 textanalys för klassificering. Som ett resultat frågar kommentarsfältet: Kan det vara direkt multimodalt? Senare diskuterade jag med Gemini och ChatGPT att även lokala små modeller kan prova multimodalitet, så jag lade till: BGE, CLIP, Whisper, Qwen, totalt 4 SLM, redo att stärka organiserings- och återvinningsfunktionerna för "bilder", "videor" och "PDF". 😅 Idag bytte jag N-versionen med Gemini, och det är fortfarande bara en prototyp. Men tänk på att det kan söka direkt med naturligt språk: "Hjälp mig hitta PPT med en projektsammanfattning i slutet av 2025" "Hitta videon på mig och min mamma som åkte till Huangshan förra året" Det är ganska häftigt! Här är min senaste version av SLM, så om du är intresserad, diskutera den gärna tillsammans! Dessutom är vår Vibe-kodningsgrupp effektiv under lång tid, fyll bara i formuläret: