https://www.youtube.com/watch?v=EV7WhVT270Q&t=5838s

In diesem Video diskutieren Sebastian Raschka, Nathan Lambert und ein weiterer Experte über die neuesten Entwicklungen in der Ausbildung von Large Language Models (LLMs), insbesondere im Hinblick auf "Reasoning"-Modelle (Modelle mit Denkfähigkeit) wie OpenAI o1 oder DeepSeek-R1.

Hier sind die zentralen Konzepte, die im Video erklärt werden, ergänzt durch Hintergrundwissen:

1. Die drei Stufen der ML-Trainingspipeline

Das Video unterteilt das Training eines Modells in drei wesentliche Phasen:

2. RLVR (Reinforcement Learning with Verified Rewards)

Dies ist eines der wichtigsten Themen des Gesprächs.

3. Inference-Time Scaling (Skalierung zur Laufzeit)

Normalerweise ist die Leistung eines Modells durch seine Größe (Parameteranzahl) begrenzt. "Inference-Time Scaling" ändert das:

4. RLHF vs. RLVR (Präferenzen vs. Wahrheit)

Die Experten vergleichen zwei Arten des Reinforcement Learnings: