07.01.2025

Manche Expert:innen haben es schon vor zwei Jahren vorhergesagt, jetzt scheint es so weit zu sein: Der KI gehen die qualitativ hochwertigen Trainingsdaten aus! Die großen Anbieter sehen sich daher verstärkt nach Alternativen um. 

Wikipedia hat als riesige Online-Enzyklopädie eine ebenso große Fangemeinde rund um den Globus. Viele von ihnen arbeiten kräftig mit, das über die mehr als 60 Millionen Einträge (Stand Anfang 2024) verbreitete Wissen zu vergrößern.

Auf eine solche menschliche Fangemeinde kann KI leider nicht zurückgreifen, um die ihrem Wissen zugrundeliegende Datenmenge zu vergrößern. Um KI zu trainieren, braucht es stets neue, hochqualitative Daten. Wie t3n schreibt, haben die Entwickler von KI-Systemen dazu in der Vergangenheit oft auf frei im Internet verfügbare Magazine und Fachpublikationen zugegriffen.

Diese Quelle droht allmählich zu versiegen. Die großen Anbieter haben daher bereits Verträge mit Verlagshäusern wie Springer, Reuters oder der New York Times abgeschlossen. Und auch Wissenschaftsarchive und Communities wie Reddit und Stack Overflow kommen zum Einsatz, um das KI-Wissen zu nähren und zu mehren. Laut t3n besteht das Problem aber darin, dass diese Quellen viel zu langsam wachsen, um den Trainingshunger der immer besser werdenden KI-Modelle zu stillen.

Schon 2022 gab es Warnungen, dass die Wissensquellen für das KI-Training spätestens 2026 versiegen werden. Andere Expert:innen waren davon ausgegangen, dass das erst zwei Jahre später eintreten wird.

Einige Entwickler wie die Facebook-Mutter Alphabet greifen daher für das Trainig ihrer KI-Modelle schlicht auf weniger zuverlässige Quellen für ihre Trainingszwecke zurück.

Ein anderer Ansatz, den zum Beispiel Anthropic seit der Opus-Version der Modellreihe Claude fährt, ist es, sogenannte synthetische Daten für das Training einzusetzen. Auch der ChatGPT-Hersteller OpenAI soll bei seinem neuen Sprachmodell Orion schon zu diesem Trick greifen. Synthetische Daten sind nicht von Menschen geschaffene Daten, die reale Daten nachahmen.

Mangel an Trainingsdaten zwingt Entwickler:innen zu Alternativen – doch diese bergen Risiken. (Bildquelle: Adobe Stock / Emongrapic)

Sie werden durch Rechenalgorithmen und Simulationen auf der Grundlage von Technologien der generativen künstlichen Intelligenz erstellt. Statt teurer herkömmlicher Datenakquise lassen sich so sehr einfach und schnell Datenmengen in beliebiger Größe generieren und an die jeweiligen Anforderungen anpassen.

Fluch und Segen synthetischer Daten

Die Methode, auf synthetische oder minderwertige Daten aus Social-Media-Posts für das KI-Training zurückzugreifen, ist unter Forschenden aber nicht unumstritten. Denn sie kann sich auf das Niveau der ausgegebenen Inhalte negativ auswirken.

Bei synthetischen Daten bleibt schließlich unklar, wie KI weiter lernen soll, wenn sie für das Training nur selbst erstellte Daten zur Verfügung hat. Abgesehen davon besteht dabei auch die Gefahr, dass KI-Modelle beginnen, sich selbst zu beschränken, wenn sie selbst generierte Trainingsdaten imitieren.

Synthetische Daten können KI sogar unbrauchbar machen, wie ein Experiment der Standford-Universität zeigt.

Synthetische Daten bieten Chancen und Risiken: Sie können den KI-Hunger stillen, doch wie beeinflusst das die Qualität der Ergebnisse langfristig? (Bildquelle: Adobe Stock / PB Studio Photo)

Denn das so erfolgte Training kann sowohl zu Fehlern als auch im günstigeren Fall zu Artefakten in den KI-Antworten sowie in der Folge zu völlig unbrauchbaren Antworten führen. Unter Forschenden ist das auch als „Rinderwahnsinn“ bekannt.

Um dem zu begegnen hat OpenAI eigens ein neues Team gegründet, das sich ausschließlich mit der Fragen befassen soll, wie es möglich ist, zukünftige KI-Modelle trotz knapper Trainingsdaten zu verbessern. Ob und wie es gelingt, ist die große Frage.

Quelle Titelbild: Adobe Stock / 沈军 贡

Diesen Beitrag teilen:

Weitere Beiträge

20.11.2025

Breite Datenallianz für den erfolgreichen KI-Einsatz in der deutschen Industrie

Redaktion Digital Chiefs

Der deutsche Tech-Konzern Siemens hat sich mit Maschinenbauunternehmen wie Trumpf und Heller zusammengetan, ...

Zum Beitrag
03.11.2025

Gartner Technologie Trends: 2026 ein Jahr der Disruption, Innovation und Risiken

Redaktion Digital Chiefs

Wie jedes Jahr warten die großen IT-Marktforscher mit Trendprognosen für das kommende auf. Gartner ...

Zum Beitrag
15.10.2025

Internetwirtschaft in Deutschland wächst um fast 10 Prozent jährlich

Redaktion Digital Chiefs

Wie vor fünf Jahren schon sieht der eco-Verband die deutsche Internetwirtschaft bis 2030 weiter auf ...

Zum Beitrag
26.09.2025

KI in der deutschen Wirtschaft weitgehend angekommen

Redaktion Digital Chiefs

Künstliche Intelligenz hat die deutsche Wirtschaft im Sturm erobert. Gut ein Drittel der Unternehmen ...

Zum Beitrag
25.09.2025

Axians zeigt erweitertes Cybersecurity-Portfolio auf der it-sa 2025

Redaktion Digital Chiefs

Unter dem Leitsatz „Secure. Connect. Empower.“ zeigt sich Axians, die ICT-Marke von VINCI Energies, ...

Zum Beitrag
18.08.2025

DESI 2025: Deutschland bei der Digitalisierung weiter nur im EU-Mittelfeld

Redaktion Digital Chiefs

Der Branchenverband Bitkom setzt das DESI-Ranking fort. 2025 hat sich Deutschland um eine Stelle nur ...

Zum Beitrag