Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Avi Chawla
Tägliche Tutorials und Einblicke in DS, ML, LLMs und RAGs • Mitbegründer @dailydoseofds_ • IIT Varanasi • Ex-KI-Ingenieur @ MastercardAI
Der ultimative Full-Stack AI Engineering Fahrplan, um von 0 auf 100 zu gelangen.
Dies ist der genau geplante Weg, was es tatsächlich braucht, um vom Anfänger → Full-Stack AI Engineer zu werden.
> Beginne mit den Grundlagen des Programmierens.
> Lerne Python, Bash, Git und Testing.
> Jeder starke AI-Ingenieur beginnt mit den Grundlagen.
> Lerne, wie man mit Modellen interagiert, indem du LLM-APIs verstehst.
> Das wird dir strukturierte Ausgaben, Caching, System-Prompts usw. beibringen.
> APIs sind großartig, aber rohe LLMs benötigen immer noch die neuesten Informationen, um effektiv zu sein.
> Lerne, wie LLMs normalerweise mit mehr Informationen/Mustern ergänzt werden.
> Das wird dir die Grundlagen des Fine-Tunings, RAG, Prompt-/Kontext-Engineering usw. beibringen.
> Starke LLMs sind ohne Kontext nutzlos. Da kommen Retrieval-Techniken ins Spiel.
> Lerne über Vektor-DBs, hybrides Retrieval, Indexierungsstrategien usw.
> Sobald das Retrieval solide ist, gehe zu RAG über.
> Lerne, Retrieval- + Generierungs-Pipelines, Neurangierung und mehrstufiges Retrieval mit beliebten Orchestrierungs-Frameworks zu erstellen.
> Jetzt, gehe zu AI Agents über, wo AI vom Antworten zum Handeln übergeht.
> Lerne über Gedächtnis, Multi-Agenten-Systeme, Human-in-the-Loop-Design, agentische Muster usw.
> Lerne, wie man in der Produktion ausliefert mit Infrastruktur.
> Das wird dir CI/CD, Container, Modell-Routing, Kubernetes und Deployment in großem Maßstab beibringen.
> Konzentriere dich auf Beobachtbarkeit & Bewertung.
> Lerne, wie man Evaluierungsdatensätze erstellt, LLM als Richter, Tracing, Instrumentierung und kontinuierliche Evaluierungs-Pipelines.
> Sicherheit ist entscheidend.
> Lerne, wie man Schutzmaßnahmen, Sandboxing, Prompt-Injection-Abwehr und ethische Richtlinien implementiert.
> Schließlich, erkunde fortgeschrittene Workflows.
> Dies umfasst Sprach- & Sichtagenten, CLI-Agenten, Robotik, Agentenschwärme und selbstverfeinernde AI-Systeme.
Dies ist die tatsächliche Reise, um ein Full-Stack AI Engineer zu werden und nicht nur "AI" zu nutzen, sondern vollständige AI-Systeme zu entwerfen, die in der Produktion bestehen können.
Was habe ich verpasst? Poste in den Antworten!

411
Ihr Embedding-Stack zwingt zu einem 100%igen Re-Index, nur um die Modelle zu wechseln.
Und die meisten Teams betrachten das als unvermeidlich.
Stellen Sie sich vor, Sie haben eine RAG-Pipeline mit einem großen Embedding-Modell für hohe Abrufqualität erstellt, und es wird in die Produktion geschickt.
Sechs Monate später steigen der Anwendungsverkehr und die Kosten für Ihr Embedding-Modell in die Höhe, während Ihre Pipeline Schwierigkeiten hat, zu skalieren. Sie möchten zu einem Modell wechseln, das Kosten und Latenz priorisiert, um dieser neuen Nachfrage gerecht zu werden.
Aber Ihre bestehenden Embeddings leben in einem Vektorraum, während das neue Modell Embeddings in einem anderen erzeugt, was sie inkompatibel macht.
Der Wechsel der Modelle bedeutet jetzt, dass der Index neu aufgebaut werden muss:
- Jedes Dokument muss neu eingebettet werden
- Jeder Chunk muss neu berechnet werden
- Millionen von Vektoren müssen regeneriert werden, bevor Abfragen wieder funktionieren
Die meisten Teams sehen sich das an und entscheiden sich, die Kosten zu absorbieren, anstatt zu wechseln.
Im Laufe der Zeit wird dies zu einer unausgesprochenen Regel.
Entweder optimieren Sie für Qualität oder Sie optimieren für Kosten, und Sie leben mit der Entscheidung, die Sie früh getroffen haben.
Aber das ist keine grundlegende Einschränkung von Embeddings.
Es ist eine Designentscheidung.
Was wäre, wenn Embedding-Modelle denselben Vektorraum teilen würden?
In diesem Setup könnten Sie Dokumente mit einem großen Modell indizieren und sie mit einem leichteren abfragen, ohne etwas neu aufzubauen.
- Die Vektoren bleiben gleich.
- Die Datenbank bleibt gleich.
- Ein Re-Indexing ist nicht mehr erforderlich.
Sobald Sie das Problem auf diese Weise sehen, wird die Architektur offensichtlich.
Und die neueste Voyage AI-Serie Voyage 4 ermöglicht genau diese Fähigkeit.
So sieht das in der Praxis aus:
voyage-4-large ist das erste Produktions-Embedding-Modell, das auf einer Mixture of Experts-Architektur basiert, und ich habe mit dem MongoDB-Team zusammengearbeitet, um zu zeigen, wie es funktioniert.
Ich habe bereits über MoE geschrieben, aber lassen Sie mich das schnell erklären:
Die meisten Embedding-Modelle verwenden jeden Parameter für jede Abfrage.
voyage-4-large aktiviert nur die Experten, die für jede Eingabe relevant sind, was die Abrufqualität bewahrt und gleichzeitig die benötigte Rechenleistung pro Abfrage reduziert.
Das Ergebnis ist eine erstklassige Genauigkeit mit 40% niedrigeren Betriebskosten.
Und hier wird es für Entwickler noch besser: voyage-4-nano ist Open-Weights auf Hugging Face, was die lokale Entwicklung und Experimentierung unkompliziert macht.
Und da alle Modelle in der Familie denselben Embedding-Raum teilen, erhalten Sie einen klaren Weg von der Entwicklung zur Produktion:
→ Prototyp lokal mit voyage-4-nano
→ Testen mit voyage-4-lite für kostensensitive Abfragen
→ Indizieren mit voyage-4-large für maximale Qualität
→ Modelle in derselben Pipeline mischen, ohne den Index neu aufzubauen
Der größere Punkt ist dieser:
Das Modell, mit dem Sie beginnen, sollte nicht bestimmen, wie sich Ihr System entwickelt.
- Isolierte Vektorräume führen zu festgelegten Entscheidungen
- Geteilte Vektorräume bewahren die Fähigkeit, sich im Laufe der Zeit anzupassen
Ich habe den Link zum Herunterladen des voyage-4-nano-Modells von @VoyageAIs HF in den Antworten geteilt.

323
Top
Ranking
Favoriten
