Post-training explained: Exciting new research directions in LLMs

https://www.youtube.com/watch?v=EV7WhVT270Q&t=5838s

In diesem Video diskutieren Sebastian Raschka, Nathan Lambert und ein weiterer Experte über die neuesten Entwicklungen in der Ausbildung von Large Language Models (LLMs), insbesondere im Hinblick auf "Reasoning"-Modelle (Modelle mit Denkfähigkeit) wie OpenAI o1 oder DeepSeek-R1.

Hier sind die zentralen Konzepte, die im Video erklärt werden, ergänzt durch Hintergrundwissen:

1. Die drei Stufen der ML-Trainingspipeline

Das Video unterteilt das Training eines Modells in drei wesentliche Phasen:

Pre-training: Die Initialphase, in der das Modell auf gewaltigen Mengen unsortierter Internetdaten lernt, wie Sprache funktioniert (allgemeines Weltwissen und Grammatik).
Mid-training: Eine Zwischenstufe, in der das Modell mit kuratierten, qualitativ hochwertigen Daten verfeinert wird, um spezifische technische Fähigkeiten oder logisches Denken zu verbessern.
Post-training: Die finale Feinabstimmung (Alignment). Hier wird das Modell darauf trainiert, Anweisungen zu folgen (Instruction Tuning) und sicher bzw. hilfreich zu agieren.

2. RLVR (Reinforcement Learning with Verified Rewards)

Dies ist eines der wichtigsten Themen des Gesprächs.

Konzept: Anstatt dass ein Mensch sagt, ob eine Antwort "gut" ist, wird eine objektive Verifizierung genutzt. Das funktioniert besonders gut bei Mathematik oder Programmierung.
Mechanismus: Ein externer "Verifier" (z. B. ein Taschenrechner oder ein Code-Compiler) prüft, ob die Lösung korrekt ist. Ist sie richtig, erhält das Modell eine Belohnung (Reward).
Vorteil: Das Modell lernt durch Ausprobieren (Trial and Error), anstatt nur menschliche Beispiele zu kopieren.

3. Inference-Time Scaling (Skalierung zur Laufzeit)

Normalerweise ist die Leistung eines Modells durch seine Größe (Parameteranzahl) begrenzt. "Inference-Time Scaling" ändert das:

Konzept: Das Modell bekommt mehr "Zeit zum Nachdenken" während der Antworterstellung.
Chain-of-Thought (CoT): Das Modell generiert interne Denkschritte, bevor es die finale Antwort gibt. Je mehr Rechenleistung (Tokens) man dem Modell beim Antworten zugesteht, desto schwieriger können die Probleme sein, die es löst. Das Video erwähnt das "Aha-Moment" in den DeepSeek-Papieren, bei denen Modelle lernen, eigene Fehler während des Denkprozesses zu korrigieren.

4. RLHF vs. RLVR (Präferenzen vs. Wahrheit)

Die Experten vergleichen zwei Arten des Reinforcement Learnings: