Modèle d'IA Teuken-7B : guide complet et multilingue

29.01.2025

4 min de lecture

Depuis fin novembre 2024, un modèle de langage d’IA open source développé au sein de l’UE est disponible pour la première fois. Un consortium mené par deux instituts Fraunhofer ainsi que d’autres établissements de recherche allemands en a assuré la direction. La particularité : l’entraînement de cette IA a été réalisé avec des données couvrant les 24 langues officielles de l’UE.Alors qu’aux États-Unis se profile un projet commun de 500 milliards de dollars pour investir dans des centres de calcul dédiés à l’IA, l’UE travaille avec une nouvelle urgence à renforcer sa souveraineté numérique et à réduire sa dépendance vis-à-vis de l’étranger.

Un projet porteur d’espoir est l’initiative OpenGPT-X, soutenue par le ministère fédéral allemand de l’Économie et de la Protection du climat (BMWK) et dirigée par les instituts Fraunhofer pour les systèmes intelligents d’analyse et d’information (IAIS) et pour les circuits intégrés (IIS).

Fin novembre 2024, ce consortium a publié sur la plateforme d’IA Hugging Face son premier modèle de langage européen. Baptisé « Teuken-7B », il a été entraîné sur les 24 langues officielles de l’UE et compte sept milliards de paramètres.

Voici la traduction journalistique en français, respectant scrupuleusement les règles demandées :

Des tokens pour les 24 langues officielles de l’UE

Pour les développeurs et développeuses de Teuken-7B, il était crucial que la répartition linguistique des données d’entraînement reflète approximativement celle des langues officielles utilisées dans l’Union européenne. L’anglais ne représente ainsi que 41,7 %, suivi du français à 9,1 %, de l’allemand à 8,7 % et de l’espagnol à 8,0 %.Le nom « Teuken » évoque les tokens – la plus petite unité porteuse de sens dans les langages de programmation – ainsi que la tokenisation, soit la segmentation d’un texte au niveau des mots. Un choix délibéré, sans doute. Car un « tokenizer » multilingue développé spécialement pour ce modèle décompose les mots en leurs différents constituants. « Moins il y a de tokens, plus un modèle de langage génère une réponse de manière (énergétiquement) efficace et rapide », explique l’IAIS (Institut Fraunhofer pour l’intelligence artificielle appliquée aux systèmes, basé en Allemagne). Comparé à d’autres tokenizers multilingues comme Llama3 et Mistral, celui-ci permettrait de réduire considérablement les coûts d’entraînement.Cette approche profiterait particulièrement aux langues européennes caractérisées par des mots très longs, comme l’allemand, le finnois ou le hongrois. Ces dernières, tout comme le turc, le japonais et le coréen, font partie des langues agglutinantes, où une expression comme « dans mes maisons » peut former un seul mot – un exemple classique pour illustrer ce phénomène linguistique.

Formation sur supercalculateur à Jülich

Le consortium réunit, outre les instituts Fraunhofer, l’Université technique de Dresde (TU Dresden), le Centre allemand de recherche en intelligence artificielle (DFKI) ainsi que le Centre de recherche de Jülich. Ce dernier a mis à disposition son supercalculateur JUWELS pour la phase d’entraînement. Depuis le 26 novembre 2024, le modèle est disponible sous licence open source.

Pour l’allemand comme langue cible, les coûts d’entraînement n’ont augmenté que d’un peu plus de 20 %. Un écart bien moindre que pour Llama 3 ou GPT-4 d’OpenAI, qui affichent une majoration de plus de 55 % pour cette même langue. En moyenne, les autres langues que l’anglais entraînent un surcoût d’environ 37 % pour Teuken, contre quelque 87 % pour Llama 3. Quant à GPT-4 et Mistral, la facture dépasse même les 100 %.

Renforcer la souveraineté numérique

« Des innovations comme celle-ci renforcent la souveraineté numérique, la compétitivité ainsi que la résilience de l’Allemagne et de l’Europe. C’est pourquoi le BMWK soutient ce projet à hauteur d’environ 14 millions d’euros », a déclaré Dr. Franziska Brantner, secrétaire d’État parlementaire au BMWK.

Peu après sa publication le 12 décembre 2024, Deutsche Telekom a annoncé être la première entreprise à pouvoir proposer Teuken-7B sur le marché. Elle considère ce modèle d’IA « Made in Germany » comme une étape clé pour renforcer la souveraineté numérique des entreprises et des administrations au sein de l’UE.

« La mise à disposition de Teuken en tant que modèle open source présente plusieurs avantages : les entreprises peuvent adapter le modèle à leurs besoins spécifiques et développer ainsi des applications spécialisées. De plus, elles peuvent choisir d’exécuter le modèle localement sur leur propre infrastructure ou auprès d’un fournisseur cloud de confiance. Si elles le souhaitent, les données sensibles peuvent donc rester au sein de l’entreprise », cite Deutsche Telekom, citant le chef de projet de l’IAIS, Dr. Nicolas Flores-Herr.

Teuken-7B

Teuken-7B, un modèle d’IA développé en Allemagne pour renforcer la souveraineté numérique européenne.

Les développeurs de la communauté scientifique et les entreprises pourront télécharger gratuitement Teuken-7B sur Hugging Face afin d’intégrer le modèle, par exemple, dans des chatbots ou des applications RAG (Retrieval Augmented Generation).

Source de l’image à la une : Adobe Stock / ShinneProject