Going Further: Late Interaction Beats Single Vector Limits

Why this topic matters
Single vector search is the standard for RAG pipelines, but struggles in real-world applications due to poor out-of-domain generalization and long-context handling. Multi-vector models overcome these limitations and show strong performance on modern retrieval tasks, including reasoning-intensive retrieval. PyLate enables easy switching with sentence-transformers-like syntax.
Text wird durch sogenannte Embedding-Modelle in Vektoren umgewandelt. Stellen Sie sich vor, Sie möchten die Bedeutung eines Wortes oder Satzes in einer Art "Koordinatensystem der Bedeutung" darstellen. Ein Embedding-Modell nimmt Text als Eingabe und gibt einen hochdimensionalen Vektor zurück - typischerweise mit 384, 512, 768 oder sogar 1536 Dimensionen.
Der Schlüssel liegt darin, dass ähnliche Texte ähnliche Vektoren erhalten. Wenn Sie beispielsweise die Sätze "Der Hund bellt" und "Das Tier macht Geräusche" durch ein Embedding-Modell schicken, werden die resultierenden Vektoren im hochdimensionalen Raum näher beieinander liegen als die Vektoren für "Der Hund bellt" und "Mathematische Gleichungen lösen".
Diese Transformation geschieht durch neuronale Netzwerke, die auf riesigen Textmengen trainiert wurden und dabei gelernt haben, semantische Beziehungen zwischen Wörtern und Phrasen zu erfassen.
Ein Embedding-Modell ist ein spezialisiertes neuronales Netzwerk, das darauf trainiert wurde, Text in numerische Vektoren zu übersetzen, die die semantische Bedeutung bewahren. Denken Sie daran wie an einen Übersetzer, der nicht von einer Sprache in eine andere übersetzt, sondern von menschlicher Sprache in die "Sprache der Mathematik".
Diese Modelle werden typischerweise mit Techniken wie Contrastive Learning trainiert: Sie lernen, dass semantisch ähnliche Texte ähnliche Vektoren haben sollten, während unähnliche Texte unterschiedliche Vektoren erhalten. Beliebte Beispiele sind Sentence-BERT, OpenAI's text-embedding-ada-002, oder open-source Modelle wie "all-MiniLM-L6-v2".
Hier liegt ein wichtiger Punkt: Nein, das Embedding-Modell muss nicht zum Hauptmodell passen. RAG folgt einem modularen Ansatz, bei dem das Embedding-Modell und das Generationsmodell (wie GPT-4o) völlig unabhängig voneinander arbeiten können.
Das liegt daran, dass das Embedding-Modell nur für die Ähnlichkeitssuche zuständig ist - es findet relevante Dokumente basierend auf der Vektorähnlichkeit. Das Generationsmodell erhält dann die gefundenen Textpassagen als normalen Text im Prompt und weiß nichts von den dahinterliegenden Vektoren.
Sie könnten also durchaus ein open-source Embedding-Modell wie "all-mpnet-base-v2" verwenden, um Dokumente zu finden, und diese dann an Claude, GPT-4o oder ein völlig anderes Sprachmodell weiterreichen. Diese Flexibilität ist einer der großen Vorteile von RAG.