Bitkom-Prognosen für die deutsche Digitalwirtschaft lassen hoffen
Redaktion Digital Chiefs
Der Branchenverband Bitkom nennt es einen „Lichtblick in der Rezession“: Er schätzt, dass der ...
Zum BeitragManche Expert:innen haben es schon vor zwei Jahren vorhergesagt, jetzt scheint es so weit zu sein: Der KI gehen die qualitativ hochwertigen Trainingsdaten aus! Die großen Anbieter sehen sich daher verstärkt nach Alternativen um.
Wikipedia hat als riesige Online-Enzyklopädie eine ebenso große Fangemeinde rund um den Globus. Viele von ihnen arbeiten kräftig mit, das über die mehr als 60 Millionen Einträge (Stand Anfang 2024) verbreitete Wissen zu vergrößern.
Auf eine solche menschliche Fangemeinde kann KI leider nicht zurückgreifen, um die ihrem Wissen zugrundeliegende Datenmenge zu vergrößern. Um KI zu trainieren, braucht es stets neue, hochqualitative Daten. Wie t3n schreibt, haben die Entwickler von KI-Systemen dazu in der Vergangenheit oft auf frei im Internet verfügbare Magazine und Fachpublikationen zugegriffen.
Diese Quelle droht allmählich zu versiegen. Die großen Anbieter haben daher bereits Verträge mit Verlagshäusern wie Springer, Reuters oder der New York Times abgeschlossen. Und auch Wissenschaftsarchive und Communities wie Reddit und Stack Overflow kommen zum Einsatz, um das KI-Wissen zu nähren und zu mehren. Laut t3n besteht das Problem aber darin, dass diese Quellen viel zu langsam wachsen, um den Trainingshunger der immer besser werdenden KI-Modelle zu stillen.
Schon 2022 gab es Warnungen, dass die Wissensquellen für das KI-Training spätestens 2026 versiegen werden. Andere Expert:innen waren davon ausgegangen, dass das erst zwei Jahre später eintreten wird.
Einige Entwickler wie die Facebook-Mutter Alphabet greifen daher für das Trainig ihrer KI-Modelle schlicht auf weniger zuverlässige Quellen für ihre Trainingszwecke zurück.
Ein anderer Ansatz, den zum Beispiel Anthropic seit der Opus-Version der Modellreihe Claude fährt, ist es, sogenannte synthetische Daten für das Training einzusetzen. Auch der ChatGPT-Hersteller OpenAI soll bei seinem neuen Sprachmodell Orion schon zu diesem Trick greifen. Synthetische Daten sind nicht von Menschen geschaffene Daten, die reale Daten nachahmen.
Sie werden durch Rechenalgorithmen und Simulationen auf der Grundlage von Technologien der generativen künstlichen Intelligenz erstellt. Statt teurer herkömmlicher Datenakquise lassen sich so sehr einfach und schnell Datenmengen in beliebiger Größe generieren und an die jeweiligen Anforderungen anpassen.
Die Methode, auf synthetische oder minderwertige Daten aus Social-Media-Posts für das KI-Training zurückzugreifen, ist unter Forschenden aber nicht unumstritten. Denn sie kann sich auf das Niveau der ausgegebenen Inhalte negativ auswirken.
Bei synthetischen Daten bleibt schließlich unklar, wie KI weiter lernen soll, wenn sie für das Training nur selbst erstellte Daten zur Verfügung hat. Abgesehen davon besteht dabei auch die Gefahr, dass KI-Modelle beginnen, sich selbst zu beschränken, wenn sie selbst generierte Trainingsdaten imitieren.
Synthetische Daten können KI sogar unbrauchbar machen, wie ein Experiment der Standford-Universität zeigt.
Denn das so erfolgte Training kann sowohl zu Fehlern als auch im günstigeren Fall zu Artefakten in den KI-Antworten sowie in der Folge zu völlig unbrauchbaren Antworten führen. Unter Forschenden ist das auch als „Rinderwahnsinn“ bekannt.
Um dem zu begegnen hat OpenAI eigens ein neues Team gegründet, das sich ausschließlich mit der Fragen befassen soll, wie es möglich ist, zukünftige KI-Modelle trotz knapper Trainingsdaten zu verbessern. Ob und wie es gelingt, ist die große Frage.
Quelle Titelbild: Adobe Stock / 沈军 贡