Sprachassistenten besser machen

Sprachassistenten werden immer beliebter und halten auch in der Industrie Einzug. Damit sie zuverlässig funktionieren, müssen sie die Sprachbefehle gut »hören«. Außerdem müssen sie  trainiert werden, damit  sie  wissen, was  das Gesagte bedeutet. Um die Hoheit über derartige Trainingsmodelle sowie über  die vom Assistenten aufgenommenen Daten zu behalten, ist eine Plattform »made in Germany« notwendig. Das Fraunhofer SPEAKER-Projekt verfolgt genau dieses Ziel. 

 

Die Nutzung virtueller Sprachassistenten wie Alexa, Siri & Co. gewinnt zunehmend an Popularität. So verwendete bereits jeder sechste Deutsche im Jahr 2018 Lautsprecher mit digitalen Sprachassistenten, sogenannte Smart Speaker. Die Zahl der Nutzer hat sich somit im Vergleich zum Vorjahr verdreifacht. 1 Trotz der steigenden Beliebtheit dieser Technologie zeigen Umfragen, dass viele Verbraucher Bedenken hinsichtlich des Datenschutzes äußern.2 Zudem fühlen sich die Nutzer der diversen Assistenten von ihren virtuellen Helfern häufig unverstanden.3 Diese beiden Probleme gehen wir vom Fraunhofer IIS in unseren NLUI-Projekten an. NLUI steht für Natural Language User Interface – also die Interaktion von Mensch und Maschine mittels natürlicher Sprache. In zwei Schritten sorgen wir dafür, dass Sprachbefehle von der Maschine verstanden und richtig verarbeitet werden.

Schritt eins: Der Sprachassistent muss mich richtig hören

Damit der gegebene Befehl korrekt verarbeitet werden kann, müssen die ausgesprochenen Sprachbefehle beim »künstlichen Ohr« klar und deutlich ankommen. Das ist oft nicht trivial, denn häufig sitzt der virtuelle Assistent in einem Smart Speaker, der z. B. Musik abspielt.

Außerdem kann es vorkommen, dass der Raum, in dem Sprachassistenten verwendet werden, Echos erzeugt, die Umgebung zu laut oder schlicht zu groß ist und der Nutzer zu weit entfernt steht. Zur Lösung dieser und weiterer Probleme haben wir die Fraunhofer upHear Voice Quality Enhancement (VQE)-Technologie entwickelt. Hiermit wird das Sprachsignal für den Smart Speaker optimal aufbereitet: So werden z. B. akustische Echos im Mikrofonsignal unterdrückt. Damit ist es möglich, das Gerät per Sprache zu bedienen, während es gleichzeitig Musik oder Ansagen abspielt. Außerdem werden Störgeräusche entfernt, um das Gerät auch dann bedienen zu können, während man sich in weiter Entfernung dazu befindet. Auf diese Weise erhält der »Keyword Spotter« ein klares Sprachsignal, was die Erkennungsleistung deutlich verbessert.

Schritt zwei: Der Sprachassistent muss »trainiert« werden

Sprachassistenten »leben« von der Interaktion zwischen Mensch und Maschine. Sie erlauben die Kommunikation mit Geräten mittels Sprachbefehlen und ermöglichen so den Zugang zu Produktangeboten und Dienstleistungen in natürlicher Sprache.

 

Um den Menschen zu verstehen, müssen zunächst verlässliche Modelle trainiert werden, anhand derer die Maschine die Bedeutung der Sprachkommandos lernen kann. Für solche Technologien fehlen bisher Lösungen, die den europäischen Standards der Datensicherung entsprechen, denn der Markt für Sprachassistenzlösungen wird bisher von US-amerikanischen und asiatischen Unternehmen dominiert. Doch der Bedarf der deutschen Industrie und Wirtschaft an Sprachassistenzlösungen ist enorm. Besonders hinsichtlich Datensouveränität besteht die Notwendigkeit, personenbezogene Daten besser zu schützen und sicher auszutauschen.

Dies ist mit einer deutschen Sprachassistentenlösung möglich, da mit ihr europäische Standards der Datensicherheit umgesetzt werden. Gleichzeitig wird ein neuer Grad der Qualität in der Mensch-Maschine-Kommunikation möglich, der weit über die semantischen Fähigkeiten aktueller Systeme hinausgeht und dadurch um einiges nutzerfreundlicher wird.

Fraunhofer SPEAKER-Projekt

Im Fraunhofer SPEAKER-Projekt haben wir gemeinsam mit dem Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS institutsübergreifend Experten aus den Bereichen Sprachverstehen, Künstliche Intelligenz und Software-Engineering zusammengebracht.

Im Rahmen dieses groß angelegten, vom Bundesministerium für Wirtschaft und Energie (BMWi) geförderten Forschungs- und Entwicklungsprojekts soll ein Sprachassistent »made in Germany« entwickelt werden. Ziel der SPEAKER-Plattform ist es, offene, transparente und sichere Sprachassistenzanwendungen bereitzustellen. Dazu gilt es, führende Technologien in den Bereichen Audiovorverarbeitung, Spracherkennung, Natural Language Understanding, Question Answering, Dialogmanagement und Sprachsynthese mittels Künstlicher Intelligenz und Machine Learning zur einfachen und unkomplizierten Nutzung verfügbar zu machen. Aus diesen Schlüsselmodulen werden industrielle Sprachassistenzanwendungen entwickelt, die wiederum über die Plattform als fertige Anwendungen anderen Marktteilnehmern zur Verfügung gestellt werden können. SPEAKER wurde beim Innovationswettbewerb »Künstliche Intelligenz als Motor für wirtschaftlich relevante Ökosysteme« des BMWi ausgezeichnet. Damit ist das Fraunhofer-Projekt eines von 16 herausragenden Konzepten, die sich gegen die Konkurrenz von über 130 Einreichungen durchsetzen konnten.

Offizieller Start der Umsetzungsphase des SPEAKER-Projekts ist am 1. April 2020. Wenn die Plattform einmal fertig entwickelt ist, wird sie an eine Betreibergesellschaft übergeben und zu vergleichbaren Kosten wie etablierte Plattformen angeboten werden.

 


1 Donath, T. (2019): »Smart Speaker & Voice Control«. In: Trendmonitor Deutschland. Abrufbar unter: https://trendmonitor-deutschland.de/smart-speaker-voice-control/.

2 Bodenhöfer, X. (2018): »Digitale Sprachassistenten als intelligente Helfer im Alltag«. In: Forschungsbeiträge der eresult GmbH.

3 Adobe 2019 Voice Report.