Datos calidad: Clave para el éxito de tu IA

17.02.2026

6 min Tiempo de lectura

63 Prozent der Unternehmen haben keine verlässlichen Data-Management-Praktiken für KI. Gartner prognostiziert, dass bis 2026 deshalb 60 Prozent aller KI-Projekte aufgegeben werden. Das Problem ist nicht die Technologie, nicht das Budget und nicht das Talent. Das Problem sind die Daten. Für CIOs ist Datenqualität keine Aufgabe der IT-Abteilung, sondern die Voraussetzung, unter der KI-Investitionen überhaupt Wert erzeugen können.

Das Wichtigste in Kürze

📊 63 Prozent ohne verlässliche Datenpraktiken: Gartner stellt fest, dass fast zwei Drittel der Unternehmen keine oder unsichere Data-Management-Praktiken für KI haben (Gartner, Q3/2024, n=248).
📉 60 Prozent Projektabbruch wegen Daten: Gartner prognostiziert, dass bis 2026 die Mehrheit der KI-Projekte an mangelhafter Datenqualität scheitert.
💰 12,9 Millionen Dollar Verlust pro Jahr: Schlechte Datenqualität kostet das durchschnittliche Unternehmen zwischen 12,9 und 15 Millionen Dollar jährlich (Gartner).
🇩🇪 6 Prozent nutzen Datenpotenzial: Laut Bitkom schöpfen nur 6 Prozent der deutschen Unternehmen das Potenzial ihrer verfügbaren Daten vollständig aus.
🎯 AI-Ready Data als Framework: Gartner definiert sechs Prinzipien für KI-fähige Daten: Accessibility, Accuracy, Completeness, Consistency, Timeliness, Uniqueness.

Garbage in, Garbage out: Das älteste Problem der Informatik

Die Formel ist seit Jahrzehnten bekannt: Wer schlechte Daten in ein System gibt, bekommt schlechte Ergebnisse heraus. Bei klassischen Datenbanken und Reporting-Tools war das ärgerlich, aber überschaubar. Bei KI wird es zum existenziellen Risiko. Ein KI-Modell, das auf fehlerhaften, unvollständigen oder veralteten Daten trainiert wird, produziert nicht nur falsche Ergebnisse. Es produziert falsche Ergebnisse mit hoher Konfidenz, verpackt in überzeugender Sprache, und die Organisation trifft Entscheidungen auf dieser Basis.

Gartner hat in einer Umfrage unter 248 Data-Management-Verantwortlichen im dritten Quartal 2024 festgestellt: 63 Prozent der Unternehmen haben entweder keine oder unsichere Data-Management-Praktiken für KI. Die Konsequenz ist dramatisch: Gartner prognostiziert, dass bis 2026 rund 60 Prozent aller KI-Projekte aufgegeben werden, die nicht durch AI-ready Data unterstützt werden. Nicht weil die Modelle schlecht sind. Nicht weil die Use Cases falsch gewählt sind. Sondern weil die Datenbasis nicht trägt.

Für CIOs bedeutet das eine unbequeme Prioritätenverschiebung. Der Reflex, in KI-Modelle, GPU-Infrastruktur und KI-ROI-Optimierung zu investieren, geht am Kernproblem vorbei, solange die Datengrundlage nicht stimmt. Die teuerste GPU-Infrastruktur liefert keinen Wert, wenn sie auf fragmentierten, inkonsistenten oder veralteten Daten arbeitet.

Was schlechte Daten wirklich kosten

Die finanziellen Auswirkungen schlechter Datenqualität sind messbar, werden aber selten systematisch erfasst. Gartner und IBM beziffern die durchschnittlichen jährlichen Kosten auf 12,9 bis 15 Millionen Dollar pro Unternehmen. Diese Zahl umfasst Fehler in der Entscheidungsfindung, manuelle Nacharbeit, verpasste Geschäftsmöglichkeiten und Compliance-Verstöße.

Forrester liefert eine spezifischere Perspektive: Mehr als 25 Prozent der Data-und-Analytics-Profis berichten, dass ihr Unternehmen durch schlechte KI-Datenqualität mehr als 5 Millionen Dollar jährlich verliert. 7 Prozent melden Verluste über 25 Millionen Dollar. Diese Zahlen beziehen sich nicht auf generelle Datenprobleme, sondern spezifisch auf KI-Projekte, die an Datenqualität scheitern.

„Datenqualität und fragmentierte Dateninfrastrukturen bleiben das zentrale Hindernis beim Skalieren von KI im Unternehmen. 72 Prozent der Organisationen nutzen inzwischen generative KI, doch die wenigsten haben ihre Datenbasis dafür vorbereitet.»
Sinngemäß nach McKinsey, The State of AI (2025)

Die Ironie ist offensichtlich: Unternehmen verdoppeln ihre KI-Investitionen, während die Dateninfrastruktur, auf der diese Investitionen aufbauen, für den KI-Einsatz nicht geeignet ist. McKinsey nennt Datenqualität und fragmentierte Dateninfrastrukturen als Haupthindernis bei 72 Prozent der befragten Unternehmen. Die Investitionsprioritäten sind falsch kalibriert.

DACH-Perspektive: 6 Prozent Datennutzung

Der deutsche Markt zeigt das Problem besonders deutlich. Laut einer Bitkom-Studie von März 2024 unter 603 Unternehmen schöpfen nur 6 Prozent der deutschen Unternehmen das Potenzial ihrer verfügbaren Daten vollständig aus. 42 Prozent nutzen es «eher wenig», 18 Prozent gar nicht. Diese Zahlen beziehen sich auf die generelle Datennutzung, nicht einmal auf KI-spezifische Anforderungen.

Die Konsequenz für den deutschen Mittelstand ist gravierend: Unternehmen, die ihre Basisdaten nicht im Griff haben, können KI nicht sinnvoll skalieren. Ein mittelständisches Fertigungsunternehmen, das KI für vorausschauende Wartung einsetzen will, braucht konsistente Sensordaten, gepflegte Wartungshistorien und standardisierte Maschinenprotokolle. Wenn diese Daten in Silos liegen, unterschiedliche Formate haben oder Lücken aufweisen, scheitert das KI-Projekt, bevor es beginnt.

Hinzu kommt die regulatorische Dimension: Der EU AI Act fordert für Hochrisiko-KI-Systeme eine nachweisbare Daten-Governance. Wer die Qualität seiner Trainingsdaten nicht dokumentieren kann, erfüllt die regulatorischen Anforderungen nicht. Datenqualität wird damit nicht nur zum wirtschaftlichen, sondern auch zum juristischen Imperativ.

63 %

ohne verlässliche KI-Datenpraktiken

6 %

nutzen Datenpotenzial voll (DE)

12,9 Mio. $

Kosten schlechter Daten pro Jahr

Quellen: Gartner Q3/2024, Bitkom 2024, Gartner 2025

Warum Data Governance für KI anders funktionieren muss

Klassische Data Governance fokussiert auf Compliance: Daten korrekt speichern, Zugriffsrechte verwalten, Aufbewahrungsfristen einhalten. Für KI reicht das nicht. KI-Systeme brauchen nicht nur korrekte, sondern repräsentative, aktuelle, konsistente und zugängliche Daten. Gartner hat 2025 ein Framework für «AI-Ready Data» definiert, das sechs Prinzipien umfasst.

Accessibility: Daten müssen für KI-Systeme technisch zugänglich sein. Daten in proprietären Formaten, hinter Legacy-Schnittstellen oder in nicht integrierten Systemen sind für KI wertlos, egal wie gut ihre Qualität ist.

Accuracy: Daten müssen die Realität korrekt abbilden. Fehlerhafte Kundenadressen, veraltete Produktkataloge oder inkonsistente Messwerte führen zu Modellen, die systematisch falsche Schlüsse ziehen.

Completeness: Lücken in den Daten erzeugen blinde Flecken in KI-Modellen. Ein Kreditscoring-Modell, das für bestimmte Kundengruppen keine Trainingsdaten hat, diskriminiert diese Gruppen, nicht aus Absicht, sondern aus Datenlücke.

Consistency: Dieselbe Information muss in allen Systemen gleich dargestellt sein. Wenn das CRM «Deutschland» schreibt und das ERP «DE» kodiert, scheitert jede Verknüpfung. Konsistenz über Systeme hinweg ist die technisch anspruchsvollste Dimension.

Timeliness: Daten müssen aktuell sein. Ein Modell, das auf Marktdaten von vor zwei Jahren trainiert wurde, ist für Prognosen wertlos. Für KI-Systeme muss definiert sein, wie oft Daten aktualisiert werden und welche Latenz akzeptabel ist.

Uniqueness: Keine Duplikate. Wenn derselbe Kunde dreimal im CRM existiert, lernt das Modell falsche Muster. Deduplizierung ist eine der häufigsten und gleichzeitig unterschätzten Aufgaben in Data-Quality-Projekten.

Gartner warnt allerdings: 80 Prozent aller Data-Governance-Initiativen werden bis 2027 scheitern, wenn sie keine klaren Business-Outcomes definieren. Das gilt auch für KI-bezogene Datenqualitätsprojekte. Wer Datenqualität als Selbstzweck betreibt, verliert Budget und Unterstützung. Wer sie als Voraussetzung für konkreten KI-ROI framed, bekommt beides. 68 Prozent der Chief Data and Analytics Officers nennen Data-Governance als Kernverantwortung für Innovation. Der Unterschied liegt in der Umsetzung: nicht regulatorisch getrieben, sondern wertschöpfungsorientiert.

Für CIOs entsteht daraus eine Steuerungsaufgabe: Datenqualität muss mit denselben KPIs gemessen werden wie die KI-Projekte, die sie ermöglicht. Wenn ein Projekt zur Automatisierung des Kundenservice scheitert, weil die Kundendaten im CRM unvollständig sind, muss das im KI-Reporting als Datenqualitätsproblem sichtbar werden. Sonst wird das nächste Projekt am selben Problem scheitern, ohne dass jemand die Ursache adressiert.

Fünf Schritte zur KI-fähigen Datenbasis

1. Data Quality Audit durchführen. Bevor ein KI-Projekt startet, muss der aktuelle Zustand der relevanten Daten systematisch bewertet werden. Wie vollständig sind die Datensätze? Wie konsistent über Systeme hinweg? Wie aktuell? Welche Datenquellen liefern und wo gibt es Brüche in der Verarbeitungskette? Spezialisierte Tools wie Informatica, Talend oder IBM DataStage können dieses Assessment teilautomatisieren. Der Aufwand liegt typischerweise bei 4 bis 8 Wochen für einen definierten Datenbereich. Das Ergebnis sollte ein Data Quality Scorecard sein, die den Reifegrad jeder Datenquelle auf den sechs Gartner-Dimensionen bewertet und konkrete Handlungsbedarfe priorisiert.

2. Data Owner benennen. Jeder Datensatz braucht einen verantwortlichen Business Owner, nicht nur einen technischen Administrator. Der Data Owner entscheidet über Qualitätsstandards, Aktualisierungsfrequenz und Zugriffsrechte. Ohne klare Ownership bleibt Datenqualität ein Gemeinschaftsproblem, für das sich niemand verantwortlich fühlt.

3. Data Pipelines für KI bauen. KI-Systeme brauchen kontinuierliche, automatisierte Datenzuführung. Manuelle Excel-Exporte und Batch-Jobs reichen nicht. CIOs sollten in Data Engineering investieren: ETL-Pipelines, Data Lakes oder Lakehouses, Echtzeit-Streaming wo nötig. Diese Infrastruktur ist die Voraussetzung für skalierbaren KI-Einsatz. Der häufigste Fehler: Unternehmen bauen KI-Modelle bevor sie ihre Datenpipelines automatisiert haben. Das funktioniert im Pilot, scheitert aber beim Scaling, weil die manuelle Datenzuführung nicht mitskaliert.

4. Datenqualitäts-Metriken etablieren. Was nicht gemessen wird, verbessert sich nicht. CIOs sollten für jeden KI-relevanten Datensatz Qualitätsmetriken definieren und im Board-Reporting sichtbar machen: Vollständigkeit (Prozent der gefüllten Felder), Konsistenz (Prozent der übereinstimmenden Werte über Systeme), Aktualität (Durchschnittsalter der Datensätze), Duplikatrate.

5. KI für Datenqualität einsetzen. Paradoxerweise kann KI selbst zur Lösung des Datenqualitätsproblems beitragen. Anomalieerkennung, automatische Deduplizierung, Entity Resolution und Datenbereinigung sind Anwendungsfälle, bei denen KI bereits heute zuverlässig funktioniert. Unternehmen sollten KI zuerst für ihre eigene Datenbasis einsetzen, bevor sie KI auf Geschäftsprozesse loslassen.

Was CIOs dem Vorstand sagen müssen

Die Botschaft an den Vorstand ist einfach: Ohne Investition in Datenqualität ist jede KI-Investition ein Risiko. 60 Prozent der KI-Projekte scheitern laut Gartner an mangelhafter Datenqualität. Die Kosten schlechter Daten liegen bei 12,9 Millionen Dollar pro Jahr. Das sind keine IT-Kosten, das sind Geschäftskosten.

CIOs, die ein KI-Budget beantragen, sollten 20 bis 30 Prozent davon für Datenqualität reservieren. Das ist kein Overhead, sondern eine Voraussetzung. Ohne diese Investition werden die restlichen 70 bis 80 Prozent mit hoher Wahrscheinlichkeit verschwendet. Die Rechnung ist einfach: 30 Prozent von einem 500.000-Euro-KI-Budget sind 150.000 Euro für Datenqualität. Das ist ein Bruchteil der 12,9 Millionen Dollar, die schlechte Daten jährlich kosten.

Datenqualität ist die unspektakulärste, aber wirkungsvollste KI-Investition, die ein CIO 2026 tätigen kann. Kein Board-Mitglied wird von Datenbereinigung begeistert sein. Aber jedes Board-Mitglied wird fragen, warum das KI-Projekt gescheitert ist. Die Antwort ist in 60 Prozent der Fälle dieselbe: die Daten waren nicht bereit.

Häufige Fragen

Warum scheitern KI-Projekte an der Datenqualität?

KI-Modelle lernen aus Daten. Wenn die Trainingsdaten fehlerhaft, unvollständig, veraltet oder inkonsistent sind, lernt das Modell falsche Muster und trifft falsche Entscheidungen. Im Gegensatz zu klassischer Software, die deterministische Ergebnisse liefert, verstärkt KI vorhandene Datenfehler und erzeugt fehlerhafte Outputs mit hoher Konfidenz.

Was kostet schlechte Datenqualität ein Unternehmen?

Gartner und IBM beziffern die durchschnittlichen jährlichen Kosten auf 12,9 bis 15 Millionen Dollar. Forrester berichtet, dass mehr als 25 Prozent der Data-und-Analytics-Profis KI-spezifische Verluste über 5 Millionen Dollar jährlich melden. Diese Kosten umfassen Fehlentscheidungen, Nacharbeit, verpasste Chancen und Compliance-Verstöße.

Was sind die sechs Prinzipien für AI-Ready Data?

Gartner definiert sechs Dimensionen: Accessibility (technischer Zugang), Accuracy (Korrektheit), Completeness (Vollständigkeit), Consistency (Systemübergreifende Einheitlichkeit), Timeliness (Aktualität) und Uniqueness (keine Duplikate). Alle sechs müssen erfüllt sein, damit Daten für KI nutzbar sind.

Wie viel des KI-Budgets sollte in Datenqualität fließen?

Experten empfehlen 20 bis 30 Prozent des KI-Budgets für Datenqualitätsmaßnahmen zu reservieren. Das umfasst Data Quality Audits, Data Engineering, Deduplizierung und die Einführung von Datenqualitätsmetriken. Diese Investition ist keine Option, sondern die Voraussetzung für KI-ROI.

Kann KI zur Verbesserung der Datenqualität eingesetzt werden?

Ja. KI eignet sich gut für Anomalieerkennung, automatische Deduplizierung, Entity Resolution und Datenbereinigung. Diese Anwendungen gelten als ausgereift und liefern schnell messbaren Wert. Unternehmen sollten KI zuerst auf ihre eigene Datenbasis anwenden, bevor sie KI in Geschäftsprozessen skalieren.

Lesetipps der Redaktion

Daten-Governance im Mittelstand: Praxischeck zum neuen DGG – MyBusinessFuture über das Data Governance Gesetz und seine Auswirkungen.
KI-Cloud-Kosten außer Kontrolle: GPU-Workloads sprengen die Budgets – cloudmagazin über die Kostenexplosion bei KI-Infrastruktur.
KI-Paradox Deutschland: Viel investiert, wenig transformiert – MyBusinessFuture zur Deloitte-Studie.

Mehr aus dem MBF Media Netzwerk

KI-ROI 2026: Die ehrliche Bilanz nach zwei Jahren Hype – Digital Chiefs
Change Management bei KI-Projekten: Warum 70 Prozent scheitern – MyBusinessFuture

Quelle Titelbild: Lukas Blazek / Pexels

Leer artículo

Datenqualität als KI-Voraussetzung: 60 Prozent scheitern

Das Wichtigste in Kürze

Garbage in, Garbage out: Das älteste Problem der Informatik

Was schlechte Daten wirklich kosten

DACH-Perspektive: 6 Prozent Datennutzung

Warum Data Governance für KI anders funktionieren muss

Fünf Schritte zur KI-fähigen Datenbasis

Was CIOs dem Vorstand sagen müssen

Häufige Fragen

Lesetipps der Redaktion

Mehr aus dem MBF Media Netzwerk

Benedikt Langer

TEMAS

Meist gelesene Beiträge

Más artículos

La soberania digital empieza en tu propio servidor: Por que los CIOs invierten ahora en IA local

Tobias Massow

Teletrabajo tras 5 años: los datos son inequívocos – y sorprenden a ambas partes

Tobias Massow

31 horas al mes en reuniones inútiles: El hábito más caro del mundo laboral

Tobias Massow

El 70 % sigue adelante, el 20 % abandona: El balance honesto de la semana laboral de 4 días

Tobias Massow

La IA generativa erosiona el pensamiento crítico: ¿Por qué la mitad de todas las organizaciones planea pruebas libres de IA?

Tobias Massow

Agilidad empresarial: por qué Scrum fracasa en el nivel C y qué funciona en su lugar

Tobias Massow