Bei der Entwicklung von AI-Produkten ist es tatsächlich am wichtigsten, "learning by doing" 🥲🥲🥲 Gestern habe ich nur zufällig mein AI-Dokumentenmanagement-Tool geteilt, und ich hätte nicht gedacht, dass so viele Leute interessiert sind. Ursprünglich habe ich nur Qwen 2.5 für die Textanalyse zur Klassifizierung verwendet. Im Kommentarbereich wurde gefragt: Kann man das nicht direkt multimodal machen? Später habe ich mit Gemini und ChatGPT darüber diskutiert, dass selbst kleine lokale Modelle multimodal sein können, also habe ich hinzugefügt: BGE, CLIP, Whisper und Qwen, insgesamt 4 SLMs, um die Organisation und Suchfunktion für "Bilder", "Videos" und "PDFs" zu verbessern. 😅 Heute habe ich zusammen mit Gemini die N-Version geändert, und es ist noch nicht mehr als ein Prototyp. Aber wenn ich daran denke, dass man direkt mit natürlicher Sprache suchen könnte: „Hilf mir, die PPT mit dem Projektbericht von Ende 2025 zu finden“ „Finde das Video, das ich letztes Jahr mit meiner Mutter in Huangshan gemacht habe“ Das wäre wirklich cool! Unten ist mein neuestes SLM, das ich ausprobiert habe, und ich lade alle Interessierten ein, darüber zu diskutieren! Außerdem ist unsere Vibe-Coding-Gruppe dauerhaft aktiv, einfach das Formular ausfüllen: