AI Scaling Laws: Are they dead or still holding?

https://youtu.be/EV7WhVT270Q?si=C7Zc8-h4Vsq5JKsn&t=2886

In diesem Videoausschnitt diskutieren Experten über die rasanten Entwicklungen im Bereich der Künstlichen Intelligenz (KI), insbesondere im Hinblick auf das „Skalieren“ von Modellen.

Hier sind die zentralen Konzepte, erklärt auf Basis des Videos und allgemeinen KI-Fachwissens:

1. Skalierungsgesetze (Scaling Laws)

Nathan (der Sprecher von AI2) erklärt die Skalierungsgesetze als eine mathematische Beziehung (Power-Law-Beziehung).

Das Konzept: Auf der X-Achse steht der Aufwand (Kombination aus Rechenleistung und Datenmenge), auf der Y-Achse die Genauigkeit der Vorhersage.
Die Erkenntnis: Es ist extrem vorhersehbar, wie viel besser ein Modell wird, wenn man ihm mehr Rechenpower und mehr Daten gibt. Solange man die Ressourcen erhöht, steigt die Intelligenz des Modells stetig an, ohne dass bisher ein Ende dieser Entwicklung absehbar ist.

2. Pre-training (Vortraining)

Dies ist die erste und teuerste Phase der KI-Entwicklung.

Im Video: Es wird erwähnt, dass Modelle wie GPT-4 in der Größenordnung von Billionen von Parametern liegen.
Das Konzept: Das Modell „liest“ riesige Mengen an Textdaten, um Sprachstrukturen, Fakten und Logik zu lernen.
Herausforderung: Es ist extrem teuer (Hunderttausende Dollar pro Tag für GPU-Cluster). Der Trend geht laut Video dahin, Modelle effizienter zu machen, damit sie bei gleicher Leistung kleiner und im Betrieb (Inferenz) günstiger sind.

3. Post-training & Reinforcement Learning (RL)

Nach dem Vortraining wird das Modell verfeinert.

RLVR (Reinforcement Learning with Verifiable Rewards): Dies wird im Video als Methode genannt, um Modellen spezifische Fähigkeiten beizubringen, wie zum Beispiel Programmierung oder die Nutzung von Werkzeugen (APIs).
Trial and Error: Das Modell probiert Lösungen aus, erhält Feedback (Belohnung) und lernt so, komplexe Aufgaben wie Software-Engineering besser zu bewältigen. Dies führt zu einem deutlichen Qualitätssprung bei spezialisierten Aufgaben.

4. Inferenzzeit-Skalierung (Inference Time Scaling)

Dies ist ein relativ neues Konzept, das durch Modelle wie OpenAI o1 bekannt wurde.

Das Konzept: Anstatt sofort das erste Wort der Antwort auszugeben, lässt man das Modell während der Abfrage (Inferenz) „nachdenken“.