29.01.2025

Seit Ende November 2024 steht erstmals ein innerhalb der EU entwickeltes Open-Source-KI-Sprachmodell zur Verfügung. Dabei war ein Konsortium rund um zwei Fraunhofer-Institute sowie weitere deutsche Forschungseinrichtungen federführend. Die Besonderheit: Das Training der KI erfolgte mit Daten auf allen 24 EU-Amtssprachen.

Während sich in den USA gerade ein 500 Milliarden Dollar schweres Gemeinschaftsprojekt für die Investition in KI-Rechenzentren anbahnt, arbeitet die EU mit neuer Dringlichkeit daran, digital souveräner und weniger abhängig vom Ausland zu werden.

Ein Hoffnungsträger ist das vom deutschen Bundesministerium für Wirtschaft und Klimaschutz (BMWK) geförderte Gemeinschaftsprojekt OpenGPT-X unter der Federführung der Fraunhofer-Institute für Intelligente Analyse- und Informationssysteme (IAIS) und für integrierte Schaltungen (IIS).

Dieses hat Ende November 2024 auf der KI-Plattform Hugging Face das erste eigene europäische KI-Sprachmodell veröffentlicht. „Teuken-7B“ wurde auf alle 24 EU-Amtssprachen trainiert und umfasst sieben Milliarden Parameter.

Token für 24 EU-Amtssprachen

Für die Entwickler:innen von Teuken-7B war es wichtig, dass die Sprachverteilung der Trainingsdaten auch in etwa die in der EU genutzten Amtssprachen widerspiegelt.  Englisch macht damit nur 41,7 Prozent aus, Französisch 9,1 Prozent, Deutsch 8,7 Prozent und Spanisch 8,0 Prozent.

Teuken-7B nutzt eine optimierte Tokenisierung, um Sprachen mit langen Wörtern effizienter zu verarbeiten, was die Performance verbessert und Kosten senkt. (Bildquelle: Adobe Stock / aimanasrn)

Der Name „Teuken“ erinnert an Token, der kleinsten sinngebenden Einheit in Programmiersprachen, und an Tokenisierung, der Segmentierung eines Textes auf Wortebene. Das ist wohl auch beabsichtigt. Denn ein eigens entwickelter multilingualer „Tokenizer“ zerlegt die Wörter in einzelne Wortbestandteile. „Je weniger Token, desto (energie-) effizienter und schneller generiert ein Sprachmodell die Antwort“, heißt es vom IAIS. Im Vergleich zu anderen multilingualen Tokenizern wie Llama3 und Mistral soll dieser sehr viel weniger Trainingskosten mitbringen.

Das würde vor allem europäischen Sprachen mit sehr langen Wörtern wie Deutsch, Finnisch und Ungarisch zugutekommen. Letztere gehören so wie das Türkisch, Japanisch und Koreanisch zu den agglutinierenden Sprachen, wo als Standardbeispiel „in meinen Häusern“ ein Wort bilden kann.

Training am Supercomputer in Jülich

Das Konsortium umfasst neben den Fraunhofer-Instituten unter anderem auch die TU Dresden, das Deutsche Forschungszentrum für Künstliche Intelligenz (DFKI) sowie das Forschungszentrum Jülich. Letzteres hat den Supercomputer JUWELS für das Training bereitgestellt. Seit dem 26. November 2024 ist es unter Open-Source-Lizenz verfügbar. Für Deutsch als Sprache stiegen die Trainingskosten dabei nur um etwas mehr als 20 Prozent. Das ist wesentlich günstiger als bei Llama 3 oder GPT-4 von OpenAI, die dafür über 55 Prozent Aufpreis verbuchten. Im Schnitt schlagen andere Sprachen als Englisch bei Teuken mit einem Aufpreis von etwa 37 Prozent zu Buche, bei Llama 3 sind es circa 87 Prozent, bei GPT-4 und Mistral sogar weit über 100 Prozent.

Stärkung der digitalen Souveränität

„Innovationen wie diese stärken die digitale Souveränität, die Wettbewerbsfähigkeit und auch die Resilienz Deutschlands und Europas. Deshalb fördert das BMWK das Projekt mit rund 14 Millionen Euro«, erklärte Dr. Franziska Brantner, Parlamentarische Staatssekretärin im BMWK.

Die Deutsche Telekom hat kurz nach der Veröffentlichung am 12. Dezember 2024 bekanntgegeben, das erste Unternehmen zu sein, das Teuken-7B kommerziell anbieten kann. Sie sieht in dem KI-Modell „Made in Germany“ einen wichtigen Schritt, um die digitale Souveränität von Unternehmen und Behörden im EU-Raum zu stärken.

„Die Bereitstellung von Teuken als Open-Source-Modell hat mehrere Vorteile: Unternehmen können das Modell auf ihre Bedarfe anpassen – also spezialisierte Anwendungen damit entwickeln. Zudem können sie bestimmen, ob sie das Modell lokal auf der eigenen Infrastruktur oder bei einem vertrauenswürdigen Cloudanbieter ihrer Wahl betreiben wollen.

Wenn gewünscht, können sensible Daten also im Unternehmen verbleiben“, zitiert die Telekom den IAIS-Projektleiter Dr. Nicolas Flores-Herr.

Teuken-7B stärkt die digitale Souveränität Europas und bietet flexible Anpassungsmöglichkeiten als Open-Source-Modell. (Bildquelle: Adobe Stock / IBEX.Media)

Entwickler:innen der Wissenschafts-Community und Unternehmen sollen bei Hugging Face Teuken-7B kostenfrei herunterladen können, um das Modell zum Beispiel in Chatbots oder RAG-Anwendungen (Retrieval Augmented Generation) zu integrieren.

Quelle Titelbild: Adobe Stock / ShinneProject

Diesen Beitrag teilen:

Weitere Beiträge

20.11.2025

Breite Datenallianz für den erfolgreichen KI-Einsatz in der deutschen Industrie

Redaktion Digital Chiefs

Der deutsche Tech-Konzern Siemens hat sich mit Maschinenbauunternehmen wie Trumpf und Heller zusammengetan, ...

Zum Beitrag
03.11.2025

Gartner Technologie Trends: 2026 ein Jahr der Disruption, Innovation und Risiken

Redaktion Digital Chiefs

Wie jedes Jahr warten die großen IT-Marktforscher mit Trendprognosen für das kommende auf. Gartner ...

Zum Beitrag
15.10.2025

Internetwirtschaft in Deutschland wächst um fast 10 Prozent jährlich

Redaktion Digital Chiefs

Wie vor fünf Jahren schon sieht der eco-Verband die deutsche Internetwirtschaft bis 2030 weiter auf ...

Zum Beitrag
26.09.2025

KI in der deutschen Wirtschaft weitgehend angekommen

Redaktion Digital Chiefs

Künstliche Intelligenz hat die deutsche Wirtschaft im Sturm erobert. Gut ein Drittel der Unternehmen ...

Zum Beitrag
25.09.2025

Axians zeigt erweitertes Cybersecurity-Portfolio auf der it-sa 2025

Redaktion Digital Chiefs

Unter dem Leitsatz „Secure. Connect. Empower.“ zeigt sich Axians, die ICT-Marke von VINCI Energies, ...

Zum Beitrag
18.08.2025

DESI 2025: Deutschland bei der Digitalisierung weiter nur im EU-Mittelfeld

Redaktion Digital Chiefs

Der Branchenverband Bitkom setzt das DESI-Ranking fort. 2025 hat sich Deutschland um eine Stelle nur ...

Zum Beitrag