»Wir werden alle generative KI anwenden«

KI-Algorithmen, die nur anhand von Prompts – also Eingaben in menschlicher Sprache – Texte, Bilder oder Videos erzeugen, werden künftig eine große Rolle in Wirtschaft, Forschung und Gesellschaft spielen. Die sogenannten generativen Algorithmen erweitern damit die Möglichkeiten des Einsatzes von Künstlicher Intelligenz. Das Fraunhofer IIS ist in der Entwicklung ganz vorne mit dabei.

Spätestens seit der Veröffentlichung von ChatGPT begeistert generative Künstliche Intelligenz Menschen auf der ganzen Welt. Der Nutzen der Technologie geht jedoch weit über text-basierte Chatbots hinaus. Generative KI hilft künftig auch bei automatischen Ansagen in der Bahn oder der Industrie und nutzt dazu natürlich-klingende gesprochene Sprache. Der Bereich Audio und Medientechnologien des Fraunhofer IIS treibt diese Form der generativen KI in einer Vielzahl von Projekten voran.

Es ist ein alltäglicher Blick in die Großraumbüros weltweit. Am Bildschirm sind die Kolleginnen und Kollegen zu sehen, man spricht über ein wichtiges Thema. Im Hintergrund sind allerdings die anderen Mitarbeitenden in eigenen Meetings, die Folge: Die Meetingteilnehmenden hören mehr Störgeräusche als den tatsächlichen Gesprächsinhalt. Wenn künftig generative Künstliche Intelligenz Einzug in die Laptops, Smartphones und Co. hält, dann gehört diese Szene der Vergangenheit an. Mit der sogenannten upHear »Target Speaker Extraction« werden die Parallelgespräche im Hintergrund fast komplett herausgefiltert. Möglich macht das bisher noch die eingesetzte klassische bzw. diskriminative KI: Das Modell muss dazu lediglich einige Sekunden eingelernt werden, um einen digitalen Fingerabdruck der eigenen Stimme zu generieren. Über den Fingerabdruck wird die eigene Stimme verstärkt, die Hintergrundgespräche ausgeblendet. »Das funktioniert auf Grund der KI-Methoden bereits sehr gut«, sagt Jan Plogsties, Strategy Manager generative AI am Fraunhofer IIS. Das Institut hat die Technologie im Rahmen seiner langjährigen Beschäftigung mit Lösungen zur Verbesserung der Audioqualität entwickelt. Nicht zuletzt kommt KI in verschiedenen Produkten der upHear-Familie des Fraunhofer IIS zum Einsatz – vom Smart Speaker über Smartphones bis hin zu Mikrofonen für Telefonkonferenzen. Mit generativer KI kann die Technologie in Zukunft noch effizienter betrieben werden. So könnte die Qualität des Gesagten optimiert werden, auch wenn extrem laute Störgeräusche wie Lüftung, Staubsauger oder Straßenlärm im Hintergrund vorhanden sind.

Generative KI unterscheidet sich von diskriminativer KI dadurch, dass sie ganz neue Inhalte erzeugen kann, die es so vorher noch nicht gab. Damit sind nicht nur Texte, sondern auch neue Bilder, Videos und eben auch Audioinhalte möglich. Die Modelle haben bei ihrem Training sehr große Mengen an Daten gesehen und können daraus mit wenigen Informationen sehr plausible neue Inhalte generieren. Das ist der entscheidende Vorteil gegenüber klassischen KI-Algorithmen.

Relevanz von generativer KI wird steigen

Die Target Speaker Extraction ist nur ein Beispiel dafür, wie Künstliche Intelligenz künftig in immer mehr Bereichen des privaten und öffentlichen Lebens Anwendung finden könnte. Welche Potenziale darin schlummern, hat man bereits durch die Einführung von ChatGPT gesehen. Jan Plogsties ist sich sicher, dass die Relevanz noch weiter steigen wird: »Wir werden alle Anwender von generativer KI sein«, sagt er. Die Fraunhofer-Gesellschaft hat sich erst kürzlich eindeutig zur Forschung an generativer KI positioniert. Über ihre Institute sei sie an wegweisenden Projekten im Bereich der generativen KI beteiligt, heißt es im entsprechenden Positionspapier. Gleich darauf verweist es auf das Projekt OpenGPT-X, an dem das Fraunhofer IIS und das Fraunhofer IAIS an offenen und leistungsfähigen Sprachmodellen für europäische Sprachen arbeiten. OpenGPT-X soll sich konkret an die Bedürfnisse europäischer Unternehmen richten und dabei vertrauenswürdig, vielseitig und zuverlässig sein. »Mit OpenGPT-X machen wir sehr gute Erfahrungen«, sagt Jan Plogsties. Dennoch sind auch Sprachmodelle nur ein weiterer der vielfältigen Berührungspunkte mit generativer KI am Institut. »Wir haben über 30 Projekte am Fraunhofer IIS, in denen generative KI grundlegend Anwendung findet«, erklärt der Wissenschaftler. Hinzu komme all die Arbeit, die bereits jetzt durch die Nutzung generativer KI-Werkzeuge vereinfacht wird.

Drei Handlungsfelder für Deutschland

Sowohl die Fraunhofer-Gesellschaft wie auch Jan Plogsties identifizieren drei zentrale Handlungsfelder in der Beschäftigung mit generativen Algorithmen. »Wir müssen in Deutschland diesen Technologie-Stack beherrschen«, meint Plogsties. Nur dann sei gewährleistet, dass die Bundesrepublik in der Entwicklung auch künftig eine Vorreiterrolle einnimmt. Hinzu kommt die Rechenkapazität, die verstärkt aufgebaut werden muss, und die Daten selbst. »Die Datenqualität spielt eine sehr große Rolle«, weiß Plogsties. Denn im Gegensatz zu ChatGPT, das auf den verfügbaren Texten im Internet aufbaut und damit auch fehleranfällig ist, muss wissenschaftlich genutzte generative KI zuverlässige Ergebnisse liefern. Das Fraunhofer IIS ist deshalb bereits im Gespräch mit Unternehmen, die ihre qualitativ hochwertigen Daten für das Training der generativen KI-Modelle zur Verfügung stellen.

Aktuell geht der Trend bei generativer KI hin zu lokalen Modellen. »Wir arbeiten gerade daran, die Qualität von großen Cloud-Modellen direkt auf die Geräte zu bringen«, sagt Plogsties. Das zahlt unter anderem auf die Energieeffizienz und die Nachhaltigkeit ein, die bei Künstlicher Intelligenz häufig in der Kritik steht. Kleinere lokale KI-Modelle brauchen im Vergleich auch weniger Strom. Geht es nach Jan Plogsties, dann hat generative KI bisher nur einen Bruchteil von dem gezeigt, was sie kann. »Und das Fraunhofer IIS gestaltet die Entwicklung maßgeblich mit«, sagt er.

Beitrag von Julian Hörndlein, Freier Journalist und PR-Texter

»Wir werden alle generative KI anwenden«

Relevanz von generativer KI wird steigen

Drei Handlungsfelder für Deutschland

Das könnte Sie auch interessieren

ADELIA: Analoge Technik schafft effizienten KI-Beschleuniger

Die KI für besseres Hörvergnügen

Serie: Ada Lovelace Center Podcast

Serie: Künstliche Intelligenz

Kontakt

Der Newsletter zum Magazin

Startseite

Contact Press / Media

Jan Plogsties

Contact Press / Media

Mandy Garcia