07.01.2025

Manche Expert:innen haben es schon vor zwei Jahren vorhergesagt, jetzt scheint es so weit zu sein: Der KI gehen die qualitativ hochwertigen Trainingsdaten aus! Die großen Anbieter sehen sich daher verstärkt nach Alternativen um. 

Wikipedia hat als riesige Online-Enzyklopädie eine ebenso große Fangemeinde rund um den Globus. Viele von ihnen arbeiten kräftig mit, das über die mehr als 60 Millionen Einträge (Stand Anfang 2024) verbreitete Wissen zu vergrößern.

Auf eine solche menschliche Fangemeinde kann KI leider nicht zurückgreifen, um die ihrem Wissen zugrundeliegende Datenmenge zu vergrößern. Um KI zu trainieren, braucht es stets neue, hochqualitative Daten. Wie t3n schreibt, haben die Entwickler von KI-Systemen dazu in der Vergangenheit oft auf frei im Internet verfügbare Magazine und Fachpublikationen zugegriffen.

Diese Quelle droht allmählich zu versiegen. Die großen Anbieter haben daher bereits Verträge mit Verlagshäusern wie Springer, Reuters oder der New York Times abgeschlossen. Und auch Wissenschaftsarchive und Communities wie Reddit und Stack Overflow kommen zum Einsatz, um das KI-Wissen zu nähren und zu mehren. Laut t3n besteht das Problem aber darin, dass diese Quellen viel zu langsam wachsen, um den Trainingshunger der immer besser werdenden KI-Modelle zu stillen.

Schon 2022 gab es Warnungen, dass die Wissensquellen für das KI-Training spätestens 2026 versiegen werden. Andere Expert:innen waren davon ausgegangen, dass das erst zwei Jahre später eintreten wird.

Einige Entwickler wie die Facebook-Mutter Alphabet greifen daher für das Trainig ihrer KI-Modelle schlicht auf weniger zuverlässige Quellen für ihre Trainingszwecke zurück.

Ein anderer Ansatz, den zum Beispiel Anthropic seit der Opus-Version der Modellreihe Claude fährt, ist es, sogenannte synthetische Daten für das Training einzusetzen. Auch der ChatGPT-Hersteller OpenAI soll bei seinem neuen Sprachmodell Orion schon zu diesem Trick greifen. Synthetische Daten sind nicht von Menschen geschaffene Daten, die reale Daten nachahmen.

Mangel an Trainingsdaten zwingt Entwickler:innen zu Alternativen – doch diese bergen Risiken. (Bildquelle: Adobe Stock / Emongrapic)

Sie werden durch Rechenalgorithmen und Simulationen auf der Grundlage von Technologien der generativen künstlichen Intelligenz erstellt. Statt teurer herkömmlicher Datenakquise lassen sich so sehr einfach und schnell Datenmengen in beliebiger Größe generieren und an die jeweiligen Anforderungen anpassen.

Fluch und Segen synthetischer Daten

Die Methode, auf synthetische oder minderwertige Daten aus Social-Media-Posts für das KI-Training zurückzugreifen, ist unter Forschenden aber nicht unumstritten. Denn sie kann sich auf das Niveau der ausgegebenen Inhalte negativ auswirken.

Bei synthetischen Daten bleibt schließlich unklar, wie KI weiter lernen soll, wenn sie für das Training nur selbst erstellte Daten zur Verfügung hat. Abgesehen davon besteht dabei auch die Gefahr, dass KI-Modelle beginnen, sich selbst zu beschränken, wenn sie selbst generierte Trainingsdaten imitieren.

Synthetische Daten können KI sogar unbrauchbar machen, wie ein Experiment der Standford-Universität zeigt.

Synthetische Daten bieten Chancen und Risiken: Sie können den KI-Hunger stillen, doch wie beeinflusst das die Qualität der Ergebnisse langfristig? (Bildquelle: Adobe Stock / PB Studio Photo)

Denn das so erfolgte Training kann sowohl zu Fehlern als auch im günstigeren Fall zu Artefakten in den KI-Antworten sowie in der Folge zu völlig unbrauchbaren Antworten führen. Unter Forschenden ist das auch als „Rinderwahnsinn“ bekannt.

Um dem zu begegnen hat OpenAI eigens ein neues Team gegründet, das sich ausschließlich mit der Fragen befassen soll, wie es möglich ist, zukünftige KI-Modelle trotz knapper Trainingsdaten zu verbessern. Ob und wie es gelingt, ist die große Frage.

Quelle Titelbild: Adobe Stock / 沈军 贡

Diesen Beitrag teilen:

Weitere Beiträge

15.05.2025

Digitale Zwillinge wettbewerbsentscheidend für deutsche Industrie

Redaktion Digital Chiefs

Viele Firmen setzen mittlerweile digitale Zwillinge, virtuelle Modelle von Maschinen oder ganzen Gebäuden ...

Zum Beitrag
07.05.2025

Wie 5G und 6G die Telemedizin beflügeln

Redaktion Digital Chiefs

Telemedizin über Länder oder Kontiente hinweg steckt noch in den Kinderschuhen. 5G ermöglicht hier ...

Zum Beitrag
30.04.2025

VDMA-Studie: Industrie resilienter gegen Cyberangriffe

Redaktion Digital Chiefs

Die Cyberresilienz in deutschen Industrieunternehmen ist zwar gestiegen, von einer Entwarnung kann aber ...

Zum Beitrag
03.04.2025

Hannover Messe 2025 ganz im Zeichen von KI und Robotik

Redaktion Digital Chiefs

Die weltgrößte Industrieschau in Hannover hat am 31. März 2025 ihre Tore geöffnet. Im Mittelpunkt ...

Zum Beitrag
26.03.2025

Weniger oder mehr Energieverbrauch? Green IT in Zeiten von KI

Redaktion Digital Chiefs

Green IT hat in den letzten Jahren nicht mehr die Aufmerksamkeit von einst bekommen. Das hat vor allem ...

Zum Beitrag
19.03.2025

Cyberkriminalität: KMUs besonders gefährdet

Redaktion Digital Chiefs

Angriffe auf namhafte Konzerne sorgen für große Schlagzeilen. Einer Studie zufolge richten Hacker & ...

Zum Beitrag