24 Sprachen, sieben Milliarden Parameter
Teuken-7B wurde von Grund auf mit den 24 Amtssprachen der Europäischen Union trainiert, zugrunde liegen sieben Milliarden Parameter. »Wirklich besonders ist der Anteil von fast 50 Prozent an nicht-englischen Pretraining-Daten«, sagt Küch. Denn das sorgt dafür, dass Teuken-7B über all die vielen Sprachen hinweg stabil und zuverlässig Ergebnisse liefert. Hinzu kommt ein speziell entwickelter multilingualer Tokenizer, der auf Energie- und Kosteneffizienz trainiert wurde und für alle Sprachen gleichermaßen ausgelegt ist. Ein Tokenizer zerlegt Wörter in kleinere sogenannte Tokens, mit denen das KI-Modell anschließend arbeiten kann. Aufgrund der Mehrsprachigkeit sind komplexe Sprachstrukturen wie im Deutschen für das Modell kein Problem. Im Unterschied zu vergleichbaren Modellen wurde Teuken-7B effizienter trainiert.
Teuken-7B ist allen voran erst einmal eine Technologie, die in die Anwendung gebracht werden muss – denn es sind ganz unterschiedliche Einsatzmöglichkeiten denkbar. »Durch Training mit den für den konkreten Anwendungsfall relevanten anwendungsspezifischen Daten können für Unternehmen individuelle KI-Lösungen geschaffen werden, die ohne BlackBox-Komponenten auskommen«, erklärt Prof. Dr.-Ing. Bernhard Grill, Institutsleiter am Fraunhofer IIS. Auf der Hand liegen dabei natürlich die bekannten Chatanwendungen, für die Teuken-7B aufgrund des sogenannten Instruction Tunings bereits angepasst wurde: Die OpenGPT-X-Partner haben Teuken-7B bewusst gelehrt, die Anweisungen von Nutzerinnen und Nutzern zu verstehen.