Создание AI-продуктов, действительно, самое важное — это «учиться на практике»🥲🥲🥲 Вчера я просто показал свой инструмент управления AI-документами, и не ожидал, что так много людей заинтересуется. Сначала я просто использовал текстовый анализ Qwen 2.5 для классификации. В результате в комментариях спрашивали: можно ли сделать это многомодальным? Позже я обсудил это с Gemini и ChatGPT, и даже небольшие локальные модели могут попробовать многомодальность, поэтому я добавил: BGE, CLIP, Whisper и Qwen — всего 4 SLM, готовясь улучшить функции организации и поиска для таких файлов, как «изображения», «видео», «PDF». 😅 Сегодня с Gemini мы изменили N версию, и это всего лишь прототип. Но подумать только, если можно будет искать с помощью естественного языка: «Помоги мне найти тот PPT с итогами проекта в конце 2025 года» «Найди видео, где я с мамой ездил на Хуаншань в прошлом году» Это было бы довольно круто! Вот моя последняя версия SLM, буду рад обсудить с заинтересованными! Кроме того, наша группа Vibe coding работает постоянно, просто заполните форму: