Când creezi produse AI, cel mai important lucru este să "înveți făcând" 🥲🥲🥲 Ieri am postat casual un instrument AI de gestionare a fișierelor, dar nu mă așteptam ca atât de mulți oameni să fie interesați. Inițial am folosit doar analiza textului Qwen 2.5 pentru clasificare. Ca urmare, zona de comentarii întreabă: Poate fi direct multimodal? Mai târziu, am discutat cu Gemini și ChatGPT, chiar și modelele locale mici pot încerca multimodalitatea, așa că am adăugat: BGE, CLIP, Whisper, Qwen, în total 4 SLM-uri, gata să întărească funcțiile de organizare și recuperare ale "imaginilor", "videoclipurilor" și "PDF". 😅 Astăzi am schimbat versiunea N cu Gemini și este încă doar un prototip. Dar gândește-te la posibilitatea de a căuta direct prin limbaj natural: "Ajută-mă să găsesc PPT-ul cu un rezumat de proiect la sfârșitul lui 2025" "Găsește videoclipul cu mine și mama mea mergând la Huangshan anul trecut" E destul de tare! Iată cea mai recentă versiune a mea de SLM, așa că dacă sunteți interesați, vă rog să discutați împreună! În plus, grupul nostru de programare Vibe este eficient pe termen lung, completează formularul: