Teuken-7B: Ein europäischer KI-Leuchtturm

25. Februar 2025 | Das Fraunhofer IIS hat mit »Teuken-7B« ein effizient trainiertes europäisches Sprachmodell entwickelt

KI-Sprachmodelle haben die Art und Weise verändert, wie Menschen mit Künstlicher Intelligenz (KI) interagieren und arbeiten. Für viele europäische Unternehmen stellen die etablierten Lösungen aber ein Datenschutz- und Sicherheitsrisiko dar. Das Fraunhofer IIS hat in einem breiten Netzwerk an Partnern aus Wissenschaft und Unternehmen mit »Teuken-7B« ein effizient trainiertes europäisches Sprachmodell entwickelt, das nicht nur als Open-Source zur Verfügung steht, sondern auch die Datenschutzstandards der Europäischen Union erfüllt.

449 Millionen Menschen, 27 Staaten, 24 Amtssprachen: Die Europäische Union ist vielfältig, genauso wie ihre Wirtschaft. Egal ob an der Schwarzmeerküste in Bulgarien oder in den französischen Überseegebieten im Pazifik, Sicherheitsstandards sind für europäische Firmen und ihre Mitarbeitenden ein Muss. Der technologische Wandel rund um KI stellt viele Unternehmen allerdings vor ein Dilemma: Sie möchten Sprachmodelle aufgrund ihrer vielen Vorteile gerne im Arbeitsalltag einsetzen, erwarten aber auch ein hohes Maß an Datenschutz. »Vor allem in sicherheitskritischen Bereichen wie der Automobilindustrie, der Medizin oder der Finanzwirtschaft ist es wichtig, dass die Daten nach höchsten Sicherheits- und Compliance-Standards beim Unternehmen verbleiben«, sagt Fabian Küch, Gruppenleiter Natural Language Processing am Fraunhofer IIS. Diesen Bedarf hat das vom Bundesministerium für Wirtschaft und Klimaschutz (BMWK) geförderte Projekt OpenGPT-X aufgegriffen und mit dem KI-Sprachmodell Teuken-7B ein vollständig europäisches Open-Source-Modell veröffentlicht, das sicher verwendet werden kann.

24 Sprachen, sieben Milliarden Parameter


Teuken-7B wurde von Grund auf mit den 24 Amtssprachen der Europäischen Union trainiert, zugrunde liegen sieben Milliarden Parameter. »Wirklich besonders ist der Anteil von fast 50 Prozent an nicht-englischen Pretraining-Daten«, sagt Küch. Denn das sorgt dafür, dass Teuken-7B über all die vielen Sprachen hinweg stabil und zuverlässig Ergebnisse liefert. Hinzu kommt ein speziell entwickelter multilingualer Tokenizer, der auf Energie- und Kosteneffizienz trainiert wurde und für alle Sprachen gleichermaßen ausgelegt ist. Ein Tokenizer zerlegt Wörter in kleinere sogenannte Tokens, mit denen das KI-Modell anschließend arbeiten kann. Aufgrund der Mehrsprachigkeit sind komplexe Sprachstrukturen wie im Deutschen für das Modell kein Problem. Im Unterschied zu vergleichbaren Modellen wurde Teuken-7B effizienter trainiert.

Teuken-7B ist allen voran erst einmal eine Technologie, die in die Anwendung gebracht werden muss – denn es sind ganz unterschiedliche Einsatzmöglichkeiten denkbar. »Durch Training mit den für den konkreten Anwendungsfall relevanten anwendungsspezifischen Daten können für Unternehmen individuelle KI-Lösungen geschaffen werden, die ohne BlackBox-Komponenten auskommen«, erklärt Prof. Dr.-Ing. Bernhard Grill, Institutsleiter am Fraunhofer IIS. Auf der Hand liegen dabei natürlich die bekannten Chatanwendungen, für die Teuken-7B aufgrund des sogenannten Instruction Tunings bereits angepasst wurde: Die OpenGPT-X-Partner haben Teuken-7B bewusst gelehrt, die Anweisungen von Nutzerinnen und Nutzern zu verstehen.

Deutsche Telekom zeigt, wie es geht


Wie das aussieht, zeigt die Deutsche Telekom bereits in der Praxis. Sie hat Teuken-7B in das Produkt Business GPT eingebaut, mit dem Firmen eine unternehmenseigene KI mit hoher Datenvertraulichkeit und Datensicherheit betreiben können. Die Mitarbeitenden fassen dann Texte zusammen, suchen nach Informationen oder arbeiten über Sprachbarrieren hinweg miteinander. »Und über all dem steht der Datenschutz: Teuken-7B ist ein Leuchtturm, der den Unternehmen Sicherheit nach deutschen Standards bringt«, weiß Wissenschaftler Fabian Küch.

Entwicklung noch lange nicht am Ende


Die Mitarbeit an Teuken-7B ist der nächste Schritt in einer langen Historie von KI-Entwicklungen am Fraunhofer IIS. Künftig sollen Teuken-7B und andere Sprachmodelle für die Verwendung in Verwaltung, Justiz und Industrie fit gemacht werden. »Dazu bauen wir gerade gemeinsam mit der Friedrich-Alexander-Universität Erlangen-Nürnberg KI-Rechnerkapazitäten am Fraunhofer IIS auf«, erläutert Küch. Teuken-7B wird in den nächsten Wochen und Monaten noch einmal deutlich besser: Allein für 2025 sind Modelle mit 48 Sprachen und bis zu 70 Milliarden Parametern geplant.

 

Beitrag von Julian Hörndlein, Freier Journalist und PR-Texter

Das könnte Sie auch interessieren

 

Serie: Künstliche Intelligenz / 20.2.2025

Effizienzkur für Künstliche Intelligenz

 

Serie: Künstliche Intelligenz / 13.2.2025

Wie Maschinen menschliche Sprache lernen

 

ADELIA: Analoge Technik schafft effizienten KI-Beschleuniger

 

Serie: Künstliche Intelligenz / 6.8.2024

»Wir werden alle generative KI anwenden«

 

Serie: Künstliche Intelligenz

 

Serie: Nachhaltigkeit

Kontakt

Sie haben Fragen, Kommentare oder Anmerkungen zum Fraunhofer IIS Magazin?

Schreiben Sie uns eine E-Mail.

Immer informiert

Der Newsletter zum Magazin

Abonnieren Sie den Newsletter des Fraunhofer IIS Magazins und erhalten Sie alle neuen Themen kompakt per Mail.

Startseite

Zurück zur Startseite des Fraunhofer IIS Magazins