07.01.2025

Manche Expert:innen haben es schon vor zwei Jahren vorhergesagt, jetzt scheint es so weit zu sein: Der KI gehen die qualitativ hochwertigen Trainingsdaten aus! Die großen Anbieter sehen sich daher verstärkt nach Alternativen um. 

Wikipedia hat als riesige Online-Enzyklopädie eine ebenso große Fangemeinde rund um den Globus. Viele von ihnen arbeiten kräftig mit, das über die mehr als 60 Millionen Einträge (Stand Anfang 2024) verbreitete Wissen zu vergrößern.

Auf eine solche menschliche Fangemeinde kann KI leider nicht zurückgreifen, um die ihrem Wissen zugrundeliegende Datenmenge zu vergrößern. Um KI zu trainieren, braucht es stets neue, hochqualitative Daten. Wie t3n schreibt, haben die Entwickler von KI-Systemen dazu in der Vergangenheit oft auf frei im Internet verfügbare Magazine und Fachpublikationen zugegriffen.

Diese Quelle droht allmählich zu versiegen. Die großen Anbieter haben daher bereits Verträge mit Verlagshäusern wie Springer, Reuters oder der New York Times abgeschlossen. Und auch Wissenschaftsarchive und Communities wie Reddit und Stack Overflow kommen zum Einsatz, um das KI-Wissen zu nähren und zu mehren. Laut t3n besteht das Problem aber darin, dass diese Quellen viel zu langsam wachsen, um den Trainingshunger der immer besser werdenden KI-Modelle zu stillen.

Schon 2022 gab es Warnungen, dass die Wissensquellen für das KI-Training spätestens 2026 versiegen werden. Andere Expert:innen waren davon ausgegangen, dass das erst zwei Jahre später eintreten wird.

Einige Entwickler wie die Facebook-Mutter Alphabet greifen daher für das Trainig ihrer KI-Modelle schlicht auf weniger zuverlässige Quellen für ihre Trainingszwecke zurück.

Ein anderer Ansatz, den zum Beispiel Anthropic seit der Opus-Version der Modellreihe Claude fährt, ist es, sogenannte synthetische Daten für das Training einzusetzen. Auch der ChatGPT-Hersteller OpenAI soll bei seinem neuen Sprachmodell Orion schon zu diesem Trick greifen. Synthetische Daten sind nicht von Menschen geschaffene Daten, die reale Daten nachahmen.

Mangel an Trainingsdaten zwingt Entwickler:innen zu Alternativen – doch diese bergen Risiken. (Bildquelle: Adobe Stock / Emongrapic)

Sie werden durch Rechenalgorithmen und Simulationen auf der Grundlage von Technologien der generativen künstlichen Intelligenz erstellt. Statt teurer herkömmlicher Datenakquise lassen sich so sehr einfach und schnell Datenmengen in beliebiger Größe generieren und an die jeweiligen Anforderungen anpassen.

Fluch und Segen synthetischer Daten

Die Methode, auf synthetische oder minderwertige Daten aus Social-Media-Posts für das KI-Training zurückzugreifen, ist unter Forschenden aber nicht unumstritten. Denn sie kann sich auf das Niveau der ausgegebenen Inhalte negativ auswirken.

Bei synthetischen Daten bleibt schließlich unklar, wie KI weiter lernen soll, wenn sie für das Training nur selbst erstellte Daten zur Verfügung hat. Abgesehen davon besteht dabei auch die Gefahr, dass KI-Modelle beginnen, sich selbst zu beschränken, wenn sie selbst generierte Trainingsdaten imitieren.

Synthetische Daten können KI sogar unbrauchbar machen, wie ein Experiment der Standford-Universität zeigt.

Synthetische Daten bieten Chancen und Risiken: Sie können den KI-Hunger stillen, doch wie beeinflusst das die Qualität der Ergebnisse langfristig? (Bildquelle: Adobe Stock / PB Studio Photo)

Denn das so erfolgte Training kann sowohl zu Fehlern als auch im günstigeren Fall zu Artefakten in den KI-Antworten sowie in der Folge zu völlig unbrauchbaren Antworten führen. Unter Forschenden ist das auch als „Rinderwahnsinn“ bekannt.

Um dem zu begegnen hat OpenAI eigens ein neues Team gegründet, das sich ausschließlich mit der Fragen befassen soll, wie es möglich ist, zukünftige KI-Modelle trotz knapper Trainingsdaten zu verbessern. Ob und wie es gelingt, ist die große Frage.

Quelle Titelbild: Adobe Stock / 沈军 贡

Diesen Beitrag teilen:

Weitere Beiträge

23.01.2025

Bitkom-Prognosen für die deutsche Digitalwirtschaft lassen hoffen

Redaktion Digital Chiefs

Der Branchenverband Bitkom nennt es einen „Lichtblick in der Rezession“: Er schätzt, dass der ...

Zum Beitrag
21.01.2025

Flächendeckender Glasfaserausbau bis 2030: Wie die Vision Realität werden kann

Henry Frey

Wo steht Deutschland in Sachen Glasfaserausbau aktuell? Diese Frage ist für unsere zunehmend digitalisierte ...

Zum Beitrag
16.01.2025

Cyberrisiken 2025: Worauf sich Unternehmen einstellen müssen

Redaktion Digital Chiefs

Das vergangene Jahr 2024 hat keine Entspannung in Sachen Bedrohung durch Cyberkriminelle gebracht, im ...

Zum Beitrag
15.01.2025

LoRaWAN als Herzstück smarter Städte – von München bis Bad Pyrmont

Redaktion Digital Chiefs

Städte und Gemeinden stehen vor der Herausforderung, smarte Lösungen für eine nachhaltige und effiziente ...

Zum Beitrag
14.01.2025

Von der Dateninsel zur vernetzten Wertschöpfung: Wie einheitliche Standards die Entsorgungsbranche digitalisieren

Alexander Marschall

Die Entsorgungs- und Recyclingbranche in Deutschland erlebt derzeit einen tiefgreifenden Wandel. Regulatorische ...

Zum Beitrag
09.01.2025

Glasfaserinfrastruktur in Deutschland: Welche Vorteile der oberirdische Ausbau bringt

Matthias Lehniger

Die Glasfasertechnologie bildet das Rückgrat moderner Kommunikationsnetze. Im Vergleich zu herkömmlichen ...

Zum Beitrag