Při vytváření AI produktů je nejdůležitější "učit se praxí" 🥲🥲🥲 Včera jsem jen tak tak mimochodem zveřejnil AI nástroj pro správu souborů, ale nečekal jsem, že to bude mít tolik zájmu. Zpočátku jsem pro klasifikaci používal pouze textovou analýzu Qwen 2.5. V důsledku toho se v komentářové sekci ptá: Může být přímo multimodální? Později jsem s Gemini a ChatGPT diskutoval, že i místní malé modely mohou zkusit multimodalitu, takže jsem přidal: BGE, CLIP, Whisper, Qwen, celkem 4 SLM, připravené posílit organizační a vyhledávací funkce "obrázků", "videí" a "PDF". 😅 Dnes jsem změnil verzi N s Gemini a stále je to jen prototyp. Ale představte si, že by mohl vyhledávat přímo podle přirozeného jazyka: "Pomozte mi najít PPT s projektovým shrnutím na konci roku 2025" "Najdi video, kde jsme loni s matkou jeli do Huangshanu" To je fakt super! Tady je moje nejnovější verze SLM, takže pokud máte zájem, prosím, diskutujte o tom společně! Navíc naše skupina pro programování ve Vibe je efektivní už dlouho, stačí vyplnit formulář: