Robienie produktów AI, rzeczywiście najważniejsze jest „uczenie się przez działanie”🥲🥲🥲 Wczoraj tylko przypadkowo pokazałem narzędzie do zarządzania dokumentami AI, nie spodziewałem się, że tak wiele osób będzie tym zainteresowanych. Na początku użyłem tylko analizy tekstu Qwen 2.5 do klasyfikacji. W rezultacie w komentarzach pytano: czy można to zrobić bezpośrednio w trybie multimodalnym? Później rozmawiałem z Gemini i ChatGPT, nawet małe modele lokalne mogą próbować multimodalności, więc dodałem: BGE, CLIP, Whisper, Qwen, łącznie 4 modele SLM, przygotowując się do wzmocnienia funkcji organizacji i wyszukiwania dla plików „obrazów”, „wideo”, „PDF”. 😅 Dziś z Gemini zaktualizowaliśmy wersję N, to wciąż tylko prototyp. Ale pomyśl, jakby to było, gdyby można było wyszukiwać za pomocą naturalnego języka: „Pomóż mi znaleźć ten PPT z podsumowaniem projektu na koniec 2025 roku” „Znajdź wideo, które nagrałem z mamą w zeszłym roku w Huangshan” To byłoby całkiem fajne! Poniżej znajduje się mój najnowszy próbny model SLM, zapraszam do dyskusji wszystkich zainteresowanych! Dodatkowo nasza grupa Vibe coding jest dostępna na stałe, wystarczy wypełnić formularz: