Multilingüe y: modelo europeo de inteligencia artificial Teuken-7B

29.01.2025

12 min de lectura

La soberanía europea en inteligencia artificial no depende de un presupuesto en miles de millones, sino de la inteligencia arquitectónica. El modelo Teuken-7B lo demuestra con un coste de entrenamiento de solo 14 millones de euros y una mejora de eficiencia de hasta el 80 % en lenguas aglutinantes. En lugar de seguir la lógica de escalado de los grandes tecnológicos estadounidenses, el proyecto apuesta por una tokenización precisa para las 24 lenguas oficiales de la UE.

Lo esencial en breve

Teuken-7B es un modelo de IA europeo de código abierto con siete mil millones de parámetros, publicado a finales de noviembre de 2024.
El entrenamiento se realizó en las 24 lenguas oficiales de la UE, donde el inglés representa solo el 41,7 % de la base de datos.
Gracias a una tokenización optimizada, el coste de entrenamiento para el alemán aumenta solo un 20 % frente al inglés, en lugar de más del 55 % como en Llama 3.
El desarrollo costó 14 millones de euros, financiado por el Ministerio Federal de Economía y Protección del Clima (BMWK).
Desde el 12 de diciembre de 2024, Deutsche Telekom ofrece la primera solución comercial de alojamiento para empresas.

20 por ciento

Aumento de costes para el alemán en comparación con el inglés durante el entrenamiento de Teuken-7B

80 por ciento

Ahorro de costes frente a otros proveedores al procesar lenguas aglutinantes como el alemán, el finés o el húngaro

„Cuantos menos tokens, más eficiente (energéticamente) y rápido genera un modelo de lenguaje la respuesta.“

Tokens para 24 lenguas oficiales de la UE

La composición de los datos de entrenamiento de Teuken-7B no sigue una distribución aleatoria, sino una clara agenda estratégica. Mientras que los modelos globales suelen entrenarse con enfoque anglocéntrico, en Teuken el inglés representa solo el 41,7 % de los datos de entrenamiento. Le siguen el francés con el 9,1 %, el alemán con el 8,7 % y el español con el 8,0 %. Esta ponderación garantiza que también se representen adecuadamente estructuras lingüísticas complejas. Lenguas como el finés y el húngaro, que suponen un reto para los tokenizadores convencionales, obtienen así la representación necesaria.

El nombre „Teuken“ es una referencia directa a „tokens“, las unidades atómicas en las que los modelos de IA descomponen el texto. La calidad de un modelo depende en gran medida de lo inteligente que sea este proceso de descomposición. Los enfoques convencionales, como los utilizados en Llama 3 o Mistral, tienden a dividir arbitrariamente palabras complejas en muchos fragmentos pequeños, lo que provoca una pérdida de coherencia semántica. En cambio, el tokenizador desarrollado específicamente para Teuken reconoce estructuras morfológicas y mantiene intactos los componentes léxicos relacionados.

Esta matización técnica tiene consecuencias directas en los costes operativos para las empresas. Menos tokens por entrada significan menos carga computacional por inferencia. En aplicaciones con gran volumen de texto, como el servicio al cliente o el análisis de documentos jurídicos, este efecto se acumula considerablemente. El IAIS de Fraunhofer ha documentado detalladamente estas relaciones para garantizar la reproducibilidad de los resultados. La transparencia no es aquí una promesa de marketing, sino una necesidad técnica para una IA fiable.

Para los CIO, esto implica un cambio de prioridades. No es la mera cantidad de parámetros la que determina la utilidad, sino la eficiencia del procesamiento del lenguaje. La disponibilidad del modelo como código abierto en plataformas como Hugging Face permite a desarrolladores y científicos examinar esta arquitectura sin barreras propietarias. Esto fomenta la difusión de tecnologías independientes de bloqueos de proveedores. Por tanto, la decisión de ofrecer una amplia cobertura lingüística es también una apuesta por la flexibilidad a largo plazo en el mercado europeo.

Entrenamiento en el supercomputador de Jülich

El poder de cálculo para el entrenamiento de Teuken-7B no se adquirió en centros de cálculo en la nube externos, sino que se proporcionó en infraestructura nacional. El supercomputador JUWELS en el Centro de Investigación de Jülich constituyó el soporte tecnológico del proyecto. En este sistema, el modelo con siete mil millones de parámetros se entrenó en una base de 500 mil millones de tokens. Este enfoque subraya la importancia de los supercomputadores locales de alto rendimiento para la soberanía digital. La soberanía de los datos comienza ya en la fase de entrenamiento, no solo en la aplicación.

La eficiencia de costos de este enfoque es notable y refuta la suposición de que la IA competitiva requiere necesariamente inversiones de miles de millones. El volumen total del proyecto ascendió a 14 millones de euros, proporcionados por el Ministerio Federal de Economía y Protección del Clima. En comparación con los gastos de las empresas estadounidenses, esta es una suma manejable que, sin embargo, tiene un gran impacto. La estructura de costos en el entrenamiento muestra ventajas claras sobre los modelos establecidos. Para el idioma alemán, el esfuerzo aumentó solo un 20 % en comparación con el inglés.

Para comparar: en Llama 3 y GPT-4, este recargo fue superior al 55 %, y en Mistral, incluso superior al 100 %. En promedio, otros idiomas en Teuken tienen un recargo del 37 %. En Llama 3, estos costos adicionales son del 87 %. Esta discrepancia es relevante para los presupuestos de TI. Las empresas que operan aplicaciones multilingües pueden reducir significativamente sus costos de infraestructura si optan por un modelo que procese estos idiomas de manera eficiente de forma nativa.

El consorcio detrás de Teuken reúne a las principales instituciones de investigación. Además de los Institutos Fraunhofer IAIS e IIS, participaron la Universidad Técnica de Dresde, el Centro Alemán de Investigación en Inteligencia Artificial (DFKI) y el Centro de Investigación de Jülich. Esta alianza demuestra cómo la financiación pública y la excelencia académica pueden producir soluciones prácticas. Desde el 26 de noviembre de 2024, el modelo está disponible bajo licencia de código abierto. El DFKI ya ha identificado casos de uso concretos para la administración pública que se pueden realizar sobre esta base.

Fortalecimiento de la soberanía digital

La soberanía digital no es un concepto abstracto en la actual situación geopolítica, sino una necesidad operativa. La Dra. Franziska Brantner, Secretaria de Estado Parlamentaria en el BMWK, enfatiza que innovaciones como Teuken fortalecen la resiliencia de Alemania y Europa. La promoción del proyecto es parte de una estrategia más amplia para reducir dependencias. Mientras que en Estados Unidos se discuten proyectos con un volumen de 500 mil millones de dólares para infraestructuras de IA, Europa apuesta por inversiones específicas y eficientes en competencias concretas.

La comercialización se lleva a cabo de manera gradual y pragmática. Deutsche Telekom lanzó el 12 de diciembre de 2024 la primera oferta comercial para Teuken-7B. Esto permite a las empresas que no desean o no pueden mantener su propia infraestructura de IA acceder a una tecnología soberana. La posibilidad de alojar el modelo localmente o con un proveedor de nube europeo de confianza devuelve a los CIO el control sobre sus flujos de datos. Esto es crucial para sectores con altos requisitos de cumplimiento.

En el sector financiero, la salud y la administración pública, las directrices de protección de datos son estrictas. Los servicios en la nube externos de EE. UU. a menudo representan una zona gris legal. Teuken-7B ofrece una alternativa que minimiza estos riesgos. La licencia de código abierto también permite una adaptación profunda a las necesidades específicas de la empresa. Los desarrolladores pueden ajustar el modelo sin depender de APIs de caja negra. Esto acelera la integración en los entornos de TI existentes.

La Iniciativa OpenGPT-X, de la cual el proyecto es parte, ya conecta a 26 socios europeos de siete países. Esta red coordina el desarrollo más allá de las fronteras nacionales. A largo plazo, esto podría llevar a que los modelos europeos tengan un rendimiento superior en ciertos dominios en comparación con los competidores globales. La independencia de las APIs externas asegura la planificación de proyectos de TI durante varios años. Los CIO obtienen así una herramienta para proteger sus hojas de ruta contra desarrollos de mercado volátiles.

Eficiencia gracias a una arquitectura inteligente

La potencia de Teuken-7B no proviene de una capacidad bruta de cálculo, sino de la inteligencia de su arquitectura. El enfoque se centró en la optimización de la tokenización, ya que esta influye directamente en el consumo energético y en la velocidad de respuesta. Este efecto es especialmente acusado en lenguas aglutinantes como el alemán, finés, húngaro, turco, japonés y coreano. En estos idiomas, los significados suelen formarse mediante la yuxtaposición de morfemas. Los tokenizadores tradicionales descomponen estas construcciones de forma ineficiente.

Un ejemplo ilustra la ventaja: la frase «in meinen Häusern» puede construirse en algunas lenguas como un único elemento léxico. Si un tokenizador la divide en cinco o seis partes individuales, se pierde información contextual. El nuevo enfoque de Teuken conserva mejor estas relaciones. Esto no solo mejora la precisión y la eficiencia económica de los resultados, sino que también reduce los requisitos de memoria. Las empresas que procesan grandes volúmenes de texto pueden ahorrar así hasta un 80 por ciento en costes de recursos.

Esta decisión arquitectónica constituye una palanca económica. Para los responsables de TI, significa que los modelos europeos no solo son competitivos por razones políticas, sino también desde el punto de vista de los costes. La combinación de financiación pública, experiencia científica y aplicación comercial por parte de Telekom demuestra un ecosistema funcional. Por ello, los CIOs no deberían considerar este modelo como un proyecto marginal, sino evaluarlo como una opción estratégica para el período 2025 a 2027.

La inversión en tecnología soberana se amortiza gracias a unos costes operativos más bajos y una mayor seguridad de los datos. Se trata de una opción real tanto para desarrolladores y científicos como para su uso industrial. El Fraunhofer-IIS ha publicado los detalles técnicos en un documento técnico (whitepaper), donde se incluyen datos de referencia comparativos directos con Llama 3 y Mistral. Estos datos proporcionan la base necesaria para tomar decisiones de compra o desarrollo bien fundamentadas.

Preguntas frecuentes

¿Qué significa exactamente Teuken-7B?

Se trata de un modelo lingüístico de inteligencia artificial de código abierto europeo con siete mil millones de parámetros, entrenado en las 24 lenguas oficiales de la UE.

¿Quién ha desarrollado el modelo?

Un consorcio liderado por los institutos Fraunhofer de Sistemas Inteligentes de Análisis e Información (IAIS) y de Circuitos Integrados (IIS).

¿Cuáles fueron los costes de desarrollo?

El proyecto fue financiado por el Ministerio Federal de Economía y Protección del Clima con 14 millones de euros.

¿Por qué es Teuken más eficiente para textos en alemán?

El tokenizador especial descompone las palabras alemanas de forma más inteligente, lo que puede reducir la carga computacional hasta en un 80 por ciento en comparación con modelos como Llama 3.

¿Dónde se puede utilizar el modelo?

Teuken-7B está disponible desde finales de noviembre de 2024 en Hugging Face y, desde el 12 de diciembre de 2024, también comercialmente a través de Deutsche Telekom.

Fuente imagen destacada: Pexels / FOTOGRAF