29.01.2025

Seit Ende November 2024 steht erstmals ein innerhalb der EU entwickeltes Open-Source-KI-Sprachmodell zur Verfügung. Dabei war ein Konsortium rund um zwei Fraunhofer-Institute sowie weitere deutsche Forschungseinrichtungen federführend. Die Besonderheit: Das Training der KI erfolgte mit Daten auf allen 24 EU-Amtssprachen.

Während sich in den USA gerade ein 500 Milliarden Dollar schweres Gemeinschaftsprojekt für die Investition in KI-Rechenzentren anbahnt, arbeitet die EU mit neuer Dringlichkeit daran, digital souveräner und weniger abhängig vom Ausland zu werden.

Ein Hoffnungsträger ist das vom deutschen Bundesministerium für Wirtschaft und Klimaschutz (BMWK) geförderte Gemeinschaftsprojekt OpenGPT-X unter der Federführung der Fraunhofer-Institute für Intelligente Analyse- und Informationssysteme (IAIS) und für integrierte Schaltungen (IIS).

Dieses hat Ende November 2024 auf der KI-Plattform Hugging Face das erste eigene europäische KI-Sprachmodell veröffentlicht. „Teuken-7B“ wurde auf alle 24 EU-Amtssprachen trainiert und umfasst sieben Milliarden Parameter.

Token für 24 EU-Amtssprachen

Für die Entwickler:innen von Teuken-7B war es wichtig, dass die Sprachverteilung der Trainingsdaten auch in etwa die in der EU genutzten Amtssprachen widerspiegelt.  Englisch macht damit nur 41,7 Prozent aus, Französisch 9,1 Prozent, Deutsch 8,7 Prozent und Spanisch 8,0 Prozent.

Teuken-7B nutzt eine optimierte Tokenisierung, um Sprachen mit langen Wörtern effizienter zu verarbeiten, was die Performance verbessert und Kosten senkt. (Bildquelle: Adobe Stock / aimanasrn)

Der Name „Teuken“ erinnert an Token, der kleinsten sinngebenden Einheit in Programmiersprachen, und an Tokenisierung, der Segmentierung eines Textes auf Wortebene. Das ist wohl auch beabsichtigt. Denn ein eigens entwickelter multilingualer „Tokenizer“ zerlegt die Wörter in einzelne Wortbestandteile. „Je weniger Token, desto (energie-) effizienter und schneller generiert ein Sprachmodell die Antwort“, heißt es vom IAIS. Im Vergleich zu anderen multilingualen Tokenizern wie Llama3 und Mistral soll dieser sehr viel weniger Trainingskosten mitbringen.

Das würde vor allem europäischen Sprachen mit sehr langen Wörtern wie Deutsch, Finnisch und Ungarisch zugutekommen. Letztere gehören so wie das Türkisch, Japanisch und Koreanisch zu den agglutinierenden Sprachen, wo als Standardbeispiel „in meinen Häusern“ ein Wort bilden kann.

Training am Supercomputer in Jülich

Das Konsortium umfasst neben den Fraunhofer-Instituten unter anderem auch die TU Dresden, das Deutsche Forschungszentrum für Künstliche Intelligenz (DFKI) sowie das Forschungszentrum Jülich. Letzteres hat den Supercomputer JUWELS für das Training bereitgestellt. Seit dem 26. November 2024 ist es unter Open-Source-Lizenz verfügbar. Für Deutsch als Sprache stiegen die Trainingskosten dabei nur um etwas mehr als 20 Prozent. Das ist wesentlich günstiger als bei Llama 3 oder GPT-4 von OpenAI, die dafür über 55 Prozent Aufpreis verbuchten. Im Schnitt schlagen andere Sprachen als Englisch bei Teuken mit einem Aufpreis von etwa 37 Prozent zu Buche, bei Llama 3 sind es circa 87 Prozent, bei GPT-4 und Mistral sogar weit über 100 Prozent.

Stärkung der digitalen Souveränität

„Innovationen wie diese stärken die digitale Souveränität, die Wettbewerbsfähigkeit und auch die Resilienz Deutschlands und Europas. Deshalb fördert das BMWK das Projekt mit rund 14 Millionen Euro«, erklärte Dr. Franziska Brantner, Parlamentarische Staatssekretärin im BMWK.

Die Deutsche Telekom hat kurz nach der Veröffentlichung am 12. Dezember 2024 bekanntgegeben, das erste Unternehmen zu sein, das Teuken-7B kommerziell anbieten kann. Sie sieht in dem KI-Modell „Made in Germany“ einen wichtigen Schritt, um die digitale Souveränität von Unternehmen und Behörden im EU-Raum zu stärken.

„Die Bereitstellung von Teuken als Open-Source-Modell hat mehrere Vorteile: Unternehmen können das Modell auf ihre Bedarfe anpassen – also spezialisierte Anwendungen damit entwickeln. Zudem können sie bestimmen, ob sie das Modell lokal auf der eigenen Infrastruktur oder bei einem vertrauenswürdigen Cloudanbieter ihrer Wahl betreiben wollen.

Wenn gewünscht, können sensible Daten also im Unternehmen verbleiben“, zitiert die Telekom den IAIS-Projektleiter Dr. Nicolas Flores-Herr.

Teuken-7B stärkt die digitale Souveränität Europas und bietet flexible Anpassungsmöglichkeiten als Open-Source-Modell. (Bildquelle: Adobe Stock / IBEX.Media)

Entwickler:innen der Wissenschafts-Community und Unternehmen sollen bei Hugging Face Teuken-7B kostenfrei herunterladen können, um das Modell zum Beispiel in Chatbots oder RAG-Anwendungen (Retrieval Augmented Generation) zu integrieren.

Quelle Titelbild: Adobe Stock / ShinneProject

Diesen Beitrag teilen:

Weitere Beiträge

13.02.2025

Augmented Reality besonders bei jungen Deutschen immer beliebter

Redaktion Digital Chiefs

Auch wenn sich der Einsatz noch meist auf Kamerafilter für lustige Einblendungen in Videochats beschränkt, ...

Zum Beitrag
11.02.2025

5 Gründe, weshalb Glasfaser für Deutschlands digitale Zukunft unverzichtbar ist

Henry Frey

Beim Streaming stockt das Video an den wichtigsten Stellen, im Home Office bricht die Verbindung bei ...

Zum Beitrag
05.02.2025

CES: Nivida stellt KI-Kraftpaket in Mini-Form vor

Redaktion Digital Chiefs

Auf der CES 2025 in Las Vegas hat Nvidia unter anderem einen Mini-Computer mit Hochleistungskomponenten ...

Zum Beitrag
04.02.2025

Auch für B2B interessant: Rückblick auf die CES 2025

Redaktion Digital Chiefs

Die Consumer Electronics Show kurz CES in Las Vegas ist dem Namen nach eher eine B2C-Messe. Sie überrascht ...

Zum Beitrag
29.01.2025

Das europäische KI-Modell „Teuken-7B“: Multilingual und Open Source

Redaktion Digital Chiefs

Seit Ende November 2024 steht erstmals ein innerhalb der EU entwickeltes Open-Source-KI-Sprachmodell ...

Zum Beitrag