Transformers: Evolution of LLMs since 2019

https://youtu.be/EV7WhVT270Q?si=BsyQFgkrsof5_YyD&t=2408

In diesem Videoausschnitt diskutieren Experten (darunter Sebastian Raschka) die Entwicklung von Sprachmodell-Architekturen, insbesondere den Vergleich zwischen älteren Modellen wie GPT-2 und moderneren Ansätzen wie GPT-OSS oder Mixture of Experts (MoE).

Hier sind die zentralen Konzepte, die im Video erklärt werden, ergänzt um technisches Hintergrundwissen:

1. Die Transformer-Architektur (Decoder-Only)

Das Video beginnt mit dem Hinweis auf das wegweisende Paper "Attention Is All You Need".

Im Video: Es wird erklärt, dass der ursprüngliche Transformer aus einem Encoder und einem Decoder bestand. GPT-Modelle (Generative Pre-trained Transformer) nutzen jedoch fast ausschließlich den Decoder-Teil.
Ergänzung: Ein Decoder-Modell ist darauf optimiert, Text Wort für Wort (Token für Token) vorherzusagen. Es "schaut" dabei nur auf die vorangegangenen Wörter, um das nächste zu generieren (kausale Sprachmodellierung).

2. Mixture of Experts (MoE)

Dies ist eines der wichtigsten im Video besprochenen Konzepte zur Skalierung von Modellen.

Im Video: MoE ermöglicht es, die Gesamtzahl der Parameter eines Modells massiv zu erhöhen, ohne dass die Rechenlast (Compute) pro Vorwärtspass im gleichen Maße steigt.
Der "Router": Ein zentrales Element ist der Router. Er entscheidet pro Token, welcher "Experte" (ein spezialisiertes Sub-Netzwerk innerhalb des Modells) aktiviert wird.
Ergänzung: Anstatt dass alle 100 Milliarden Parameter für jedes Wort rechnen, werden z. B. nur zwei von acht Experten genutzt. Das macht das Modell effizienter und "schlauer" in verschiedenen Fachgebieten (z. B. Mathe vs. Lyrik).

3. Sparse vs. Dense Modelle

Dense (Dicht): In einem klassischen "Dense"-Modell (wie GPT-2 oder GPT-3) werden bei jeder Berechnung alle Parameter des Netzwerks genutzt.
Sparse (Sparsiv): MoE-Modelle gelten als "sparse". Nur ein kleiner Teil der Gewichte ist pro Rechenschritt aktiv. Das Video erwähnt, dass dies die Kapazität des Modells erhöht, ohne die Inferenzkosten explodieren zu lassen.

4. Normalisierung und Aktivierungsfunktionen (RMSNorm & SwiGLU)

Das Video zeigt technische Diagramme, die kleine, aber wichtige Optimierungen illustrieren:

RMSNorm: Ein Ersatz für die klassische Layer-Normalisierung. Sie ist recheneffizienter, da sie auf die Mittelwertverschiebung verzichtet und nur die Varianz skaliert.
SwiGLU / Aktivierungsfunktionen: Es wird erwähnt, dass Funktionen wie ReLU durch modernere Varianten (wie SwiGLU in GPT-OSS) ersetzt wurden, was die Lernfähigkeit des Modells verbessert.