How AI is trained: Pre-training, Mid-training, and Post-training

https://youtu.be/EV7WhVT270Q?si=FA0l8rstK_QaAttg&t=3853

In diesem Video-Ausschnitt diskutieren Experten über die Entwicklung und das Training von Large Language Models (LLMs). Dabei werden mehrere grundlegende Konzepte der künstlichen Intelligenz (KI) erläutert.

Hier ist eine Übersicht der wichtigsten Konzepte, basierend auf dem Video und allgemeinem Fachwissen:

1. Die Phasen der ML-Trainings-Pipeline

Das Video unterteilt den Entwicklungsprozess eines Modells in drei Hauptphasen (zu sehen ab Minute 64:13):

Pre-training (Vortraining): Dies ist die initiale Phase, in der ein Modell mit gewaltigen Mengen an Rohdaten (Bücher, Webseiten, Code) gefüttert wird. Ziel ist es, ein allgemeines Verständnis von Sprache, Mustern und Weltwissen durch „Self-Supervised Learning“ zu entwickeln.
Mid-training (Zwischentraining): Eine Zwischenphase, in der das Modell auf kuratierten, qualitativ hochwertigen Daten verfeinert wird. Hier geht es oft um die Spezialisierung auf bestimmte Fähigkeiten, wie etwa mathematisches Denken oder das Verständnis langer Kontexte.
Post-training (Nachbearbeitung/Alignment): Hier wird das Modell durch menschliches Feedback (RLHF) und spezifische Aufgaben verfeinert, um sicherzustellen, dass es hilfreich, sicher und präzise antwortet.

2. Datenqualität vs. Datenquantität

Ein zentrales Thema ist der Wandel von „einfach alles hineinwerfen“ hin zur gezielten Auswahl.

Synthetische Daten: Das Video erklärt (ab 64:47), dass synthetische Daten nicht nur „erfundene“ Daten sind, sondern oft durch KI umformulierte oder strukturierte Versionen echter Daten (z. B. Wikipedia-Artikel, die in ein Frage-Antwort-Format umgewandelt wurden). Dies erhöht die Qualität der Trainingsdaten.
OCR (Optical Character Recognition): Um an hochwertiges Wissen aus PDFs und wissenschaftlichen Dokumenten zu kommen, nutzen Labs OCR-Technologien (wie „Olmo-OCR“), um Milliarden von Token aus Bildformaten in maschinenlesbaren Text umzuwandeln (68:37).

3. Reinforcement Learning (Bestärkendes Lernen)

Zwei spezifische Methoden werden grafisch erläutert:

RLHF (Reinforcement Learning from Human Feedback): Menschen bewerten verschiedene Antworten des Modells. Ein „Reward Model“ lernt diese Vorlieben und trainiert das LLM darauf, Antworten zu generieren, die dem menschlichen Geschmack und Sicherheitsstandards entsprechen (73:22).
RLVR (Reinforcement Learning with Verifiable Rewards): Dies ist eine fortgeschrittene Methode für Aufgaben mit eindeutigen Lösungen (wie Mathe oder Programmierung). Das Modell erhält automatisch eine Belohnung, wenn das Ergebnis verifizierbar korrekt ist, was ein massives Skalieren des Trainings ohne ständiges menschliches Eingreifen ermöglicht (73:35).

4. Technische Herausforderungen

Catastrophic Forgetting (Katastrophales Vergessen): Ein Problem neuronaler Netze, bei dem das Modell altes Wissen überschreibt oder „vergisst“, wenn es mit neuen Informationen trainiert wird (65:52). Die Experten diskutieren, wie man durch die richtige Mischung der Datenphasen dieses Vergessen minimiert.
Urheberrecht und Lizenzierung: Es wird die rechtliche Grauzone diskutiert, in der Modelle trainiert werden. Anthropic wird als Beispiel genannt, die hohe Summen zahlen mussten, weil sie sowohl rechtmäßig gekaufte als auch raubkopierte Bücher für das Training verwendet hatten (72:42).