Am Limit: KI gehen langsam die Trainingsdaten aus

07.01.2025

Manche Expert:innen haben es schon vor zwei Jahren vorhergesagt, jetzt scheint es so weit zu sein: Der KI gehen die qualitativ hochwertigen Trainingsdaten aus! Die großen Anbieter sehen sich daher verstärkt nach Alternativen um.

Wikipedia hat als riesige Online-Enzyklopädie eine ebenso große Fangemeinde rund um den Globus. Viele von ihnen arbeiten kräftig mit, das über die mehr als 60 Millionen Einträge (Stand Anfang 2024) verbreitete Wissen zu vergrößern.

Auf eine solche menschliche Fangemeinde kann KI leider nicht zurückgreifen, um die ihrem Wissen zugrundeliegende Datenmenge zu vergrößern. Um KI zu trainieren, braucht es stets neue, hochqualitative Daten. Wie t3n schreibt, haben die Entwickler von KI-Systemen dazu in der Vergangenheit oft auf frei im Internet verfügbare Magazine und Fachpublikationen zugegriffen.

Diese Quelle droht allmählich zu versiegen. Die großen Anbieter haben daher bereits Verträge mit Verlagshäusern wie Springer, Reuters oder der New York Times abgeschlossen. Und auch Wissenschaftsarchive und Communities wie Reddit und Stack Overflow kommen zum Einsatz, um das KI-Wissen zu nähren und zu mehren. Laut t3n besteht das Problem aber darin, dass diese Quellen viel zu langsam wachsen, um den Trainingshunger der immer besser werdenden KI-Modelle zu stillen.

Schon 2022 gab es Warnungen, dass die Wissensquellen für das KI-Training spätestens 2026 versiegen werden. Andere Expert:innen waren davon ausgegangen, dass das erst zwei Jahre später eintreten wird.

Einige Entwickler wie die Facebook-Mutter Alphabet greifen daher für das Trainig ihrer KI-Modelle schlicht auf weniger zuverlässige Quellen für ihre Trainingszwecke zurück.

Ein anderer Ansatz, den zum Beispiel Anthropic seit der Opus-Version der Modellreihe Claude fährt, ist es, sogenannte synthetische Daten für das Training einzusetzen. Auch der ChatGPT-Hersteller OpenAI soll bei seinem neuen Sprachmodell Orion schon zu diesem Trick greifen. Synthetische Daten sind nicht von Menschen geschaffene Daten, die reale Daten nachahmen.

Mangel an Trainingsdaten zwingt Entwickler:innen zu Alternativen – doch diese bergen Risiken. (Bildquelle: Adobe Stock / Emongrapic)

Sie werden durch Rechenalgorithmen und Simulationen auf der Grundlage von Technologien der generativen künstlichen Intelligenz erstellt. Statt teurer herkömmlicher Datenakquise lassen sich so sehr einfach und schnell Datenmengen in beliebiger Größe generieren und an die jeweiligen Anforderungen anpassen.

Fluch und Segen synthetischer Daten

Die Methode, auf synthetische oder minderwertige Daten aus Social-Media-Posts für das KI-Training zurückzugreifen, ist unter Forschenden aber nicht unumstritten. Denn sie kann sich auf das Niveau der ausgegebenen Inhalte negativ auswirken.

Bei synthetischen Daten bleibt schließlich unklar, wie KI weiter lernen soll, wenn sie für das Training nur selbst erstellte Daten zur Verfügung hat. Abgesehen davon besteht dabei auch die Gefahr, dass KI-Modelle beginnen, sich selbst zu beschränken, wenn sie selbst generierte Trainingsdaten imitieren.

Synthetische Daten können KI sogar unbrauchbar machen, wie ein Experiment der Standford-Universität zeigt.

Synthetische Daten bieten Chancen und Risiken: Sie können den KI-Hunger stillen, doch wie beeinflusst das die Qualität der Ergebnisse langfristig? (Bildquelle: Adobe Stock / PB Studio Photo)

Denn das so erfolgte Training kann sowohl zu Fehlern als auch im günstigeren Fall zu Artefakten in den KI-Antworten sowie in der Folge zu völlig unbrauchbaren Antworten führen. Unter Forschenden ist das auch als „Rinderwahnsinn“ bekannt.

Um dem zu begegnen hat OpenAI eigens ein neues Team gegründet, das sich ausschließlich mit der Fragen befassen soll, wie es möglich ist, zukünftige KI-Modelle trotz knapper Trainingsdaten zu verbessern. Ob und wie es gelingt, ist die große Frage.

Quelle Titelbild: Adobe Stock / 沈军贡

Am Limit: KI gehen langsam die Trainingsdaten aus

Fluch und Segen synthetischer Daten

Redaktion Digital Chiefs

THEMEN

Meist gelesene Beiträge

Weitere Beiträge

Neura Robotics stellt KI-gestützte humanoide Roboter vor

Redaktion Digital Chiefs

Vernetzte Industrie immer mehr durch IoT-Ransomware gefährdet

Redaktion Digital Chiefs

Greenpeace-Studie sieht Energiewende durch KI gefährdet

Redaktion Digital Chiefs

Weltgrößter Batteriespeicher entsteht in der Schweiz

Redaktion Digital Chiefs

Wachsende IT-Komplexität wird zur Herausforderung

Redaktion Digital Chiefs

Sorge vor KI Abhängigkeit vom Ausland wächst

Redaktion Digital Chiefs