Augmented Reality besonders bei jungen Deutschen immer beliebter
Redaktion Digital Chiefs
Auch wenn sich der Einsatz noch meist auf Kamerafilter für lustige Einblendungen in Videochats beschränkt, ...
Seit Ende November 2024 steht erstmals ein innerhalb der EU entwickeltes Open-Source-KI-Sprachmodell zur Verfügung. Dabei war ein Konsortium rund um zwei Fraunhofer-Institute sowie weitere deutsche Forschungseinrichtungen federführend. Die Besonderheit: Das Training der KI erfolgte mit Daten auf allen 24 EU-Amtssprachen.
Während sich in den USA gerade ein 500 Milliarden Dollar schweres Gemeinschaftsprojekt für die Investition in KI-Rechenzentren anbahnt, arbeitet die EU mit neuer Dringlichkeit daran, digital souveräner und weniger abhängig vom Ausland zu werden.
Ein Hoffnungsträger ist das vom deutschen Bundesministerium für Wirtschaft und Klimaschutz (BMWK) geförderte Gemeinschaftsprojekt OpenGPT-X unter der Federführung der Fraunhofer-Institute für Intelligente Analyse- und Informationssysteme (IAIS) und für integrierte Schaltungen (IIS).
Dieses hat Ende November 2024 auf der KI-Plattform Hugging Face das erste eigene europäische KI-Sprachmodell veröffentlicht. „Teuken-7B“ wurde auf alle 24 EU-Amtssprachen trainiert und umfasst sieben Milliarden Parameter.
Für die Entwickler:innen von Teuken-7B war es wichtig, dass die Sprachverteilung der Trainingsdaten auch in etwa die in der EU genutzten Amtssprachen widerspiegelt. Englisch macht damit nur 41,7 Prozent aus, Französisch 9,1 Prozent, Deutsch 8,7 Prozent und Spanisch 8,0 Prozent.
Der Name „Teuken“ erinnert an Token, der kleinsten sinngebenden Einheit in Programmiersprachen, und an Tokenisierung, der Segmentierung eines Textes auf Wortebene. Das ist wohl auch beabsichtigt. Denn ein eigens entwickelter multilingualer „Tokenizer“ zerlegt die Wörter in einzelne Wortbestandteile. „Je weniger Token, desto (energie-) effizienter und schneller generiert ein Sprachmodell die Antwort“, heißt es vom IAIS. Im Vergleich zu anderen multilingualen Tokenizern wie Llama3 und Mistral soll dieser sehr viel weniger Trainingskosten mitbringen.
Das würde vor allem europäischen Sprachen mit sehr langen Wörtern wie Deutsch, Finnisch und Ungarisch zugutekommen. Letztere gehören so wie das Türkisch, Japanisch und Koreanisch zu den agglutinierenden Sprachen, wo als Standardbeispiel „in meinen Häusern“ ein Wort bilden kann.
Das Konsortium umfasst neben den Fraunhofer-Instituten unter anderem auch die TU Dresden, das Deutsche Forschungszentrum für Künstliche Intelligenz (DFKI) sowie das Forschungszentrum Jülich. Letzteres hat den Supercomputer JUWELS für das Training bereitgestellt. Seit dem 26. November 2024 ist es unter Open-Source-Lizenz verfügbar. Für Deutsch als Sprache stiegen die Trainingskosten dabei nur um etwas mehr als 20 Prozent. Das ist wesentlich günstiger als bei Llama 3 oder GPT-4 von OpenAI, die dafür über 55 Prozent Aufpreis verbuchten. Im Schnitt schlagen andere Sprachen als Englisch bei Teuken mit einem Aufpreis von etwa 37 Prozent zu Buche, bei Llama 3 sind es circa 87 Prozent, bei GPT-4 und Mistral sogar weit über 100 Prozent.
„Innovationen wie diese stärken die digitale Souveränität, die Wettbewerbsfähigkeit und auch die Resilienz Deutschlands und Europas. Deshalb fördert das BMWK das Projekt mit rund 14 Millionen Euro«, erklärte Dr. Franziska Brantner, Parlamentarische Staatssekretärin im BMWK.
Die Deutsche Telekom hat kurz nach der Veröffentlichung am 12. Dezember 2024 bekanntgegeben, das erste Unternehmen zu sein, das Teuken-7B kommerziell anbieten kann. Sie sieht in dem KI-Modell „Made in Germany“ einen wichtigen Schritt, um die digitale Souveränität von Unternehmen und Behörden im EU-Raum zu stärken.
„Die Bereitstellung von Teuken als Open-Source-Modell hat mehrere Vorteile: Unternehmen können das Modell auf ihre Bedarfe anpassen – also spezialisierte Anwendungen damit entwickeln. Zudem können sie bestimmen, ob sie das Modell lokal auf der eigenen Infrastruktur oder bei einem vertrauenswürdigen Cloudanbieter ihrer Wahl betreiben wollen.
Wenn gewünscht, können sensible Daten also im Unternehmen verbleiben“, zitiert die Telekom den IAIS-Projektleiter Dr. Nicolas Flores-Herr.
Entwickler:innen der Wissenschafts-Community und Unternehmen sollen bei Hugging Face Teuken-7B kostenfrei herunterladen können, um das Modell zum Beispiel in Chatbots oder RAG-Anwendungen (Retrieval Augmented Generation) zu integrieren.
Quelle Titelbild: Adobe Stock / ShinneProject