https://youtu.be/EV7WhVT270Q?si=BsyQFgkrsof5_YyD&t=2408

In diesem Videoausschnitt diskutieren Experten (darunter Sebastian Raschka) die Entwicklung von Sprachmodell-Architekturen, insbesondere den Vergleich zwischen älteren Modellen wie GPT-2 und moderneren Ansätzen wie GPT-OSS oder Mixture of Experts (MoE).

Hier sind die zentralen Konzepte, die im Video erklärt werden, ergänzt um technisches Hintergrundwissen:

1. Die Transformer-Architektur (Decoder-Only)

Das Video beginnt mit dem Hinweis auf das wegweisende Paper "Attention Is All You Need".

2. Mixture of Experts (MoE)

Dies ist eines der wichtigsten im Video besprochenen Konzepte zur Skalierung von Modellen.

3. Sparse vs. Dense Modelle

4. Normalisierung und Aktivierungsfunktionen (RMSNorm & SwiGLU)

Das Video zeigt technische Diagramme, die kleine, aber wichtige Optimierungen illustrieren: