Wie Maschinen menschliche Sprache lernen

Mit fortschrittlicher Spracherkennung und Sprachsynthese ermöglicht Allinga eine natürliche Kommunikation zwischen Mensch und Maschine, angepasst an Arbeitsumgebung und Branche. So werden individuelle Sprachlösungen datenschutzkonform für die Industrie nutzbar gemacht.

Die Technologie hinter Allinga zielt darauf ab, Maschinen in die Lage zu versetzen, menschliche Sprache zu verstehen und zu nutzen. Dazu gehört, gesprochene Kommandos akustisch und inhaltlich zu verstehen und Informationen mit einer menschlich klingenden Stimme auszugeben. So wird die Basis für eine Zusammenarbeit mit der Technik geschaffen, die sich für Menschen natürlicher und intuitiver anfühlt als wir es heute mit Maus, Tastatur und Monitor gewohnt sind. Darüber hinaus eröffnen sich sogar völlig neue Anwendungsfelder.

Entwicklungen in diese Richtung kennen viele bereits aus dem Alltag, wenn sie beispielsweise den heimischen Fernseher oder das Navigationssystem im Auto per Sprachbefehl steuern. Allinga greift diesen Trend auf und legt die Basis für die Nutzung der Technologie in professionellen Anwendungen. Hier gelten besondere Anforderungen an Qualität, Robustheit und Datensouveränität. Denn wenn beispielsweise in der Medizin der Zukunft Ärztinnen und Ärzte während der Diagnose freihändig Patientendaten abfragen oder medizinische Geräte berührungslos bedienen, müssen sie sich darauf verlassen können, dass die Technologie absolut zuverlässig funktioniert und die hochgradig sensiblen Informationen nicht in falsche Hände geraten.

»Made in Germany« als Garant für Sicherheit

Auch wenn heutzutage viele Anwendungen mittels Spracheingabe gesteuert werden können, ist man erst am Anfang des technisch Möglichen. Hier setzt die Forschungsarbeit der Fraunhofer- Institute IIS und IAIS an. Allinga, die Technologie »made in Germany«, bietet Unternehmen die Möglichkeit, Sprachlösungen datenschutzkonform in ihre Prozesse zu integrieren, und garantiert volle Datensouveränität nach europäischen Datenschutzstandards. Für maximale Sicherheit sorgt zudem, dass Allinga nicht auf die Nutzung in einer Cloud angewiesen, sondern flexibel genug ist, um auf den Servern eines Unternehmens zu laufen – unabhängig von externen Netzwerken, immer verfügbar und geschützt vor dem unerlaubten Zugriff durch Dritte.

Spezialisierte KI-Module für eine Vielzahl von Anwendungen

Allinga wird von einem Team aus über 60 Expertinnen und Experten entwickelt. Die beiden Module Allinga Ears für Spracherkennung und Allinga Voice für Sprachsynthese haben sich bereits erfolgreich auf dem Markt etabliert. Sie lassen sich unabhängig voneinander, aber auch in Kombination betreiben.

Allinga Voice verfügt über eine klare, flüssige Stimme, die wie ein echter Mensch klingt. Sie lässt sich auf lokale Dialekte oder Spezialwortschatz trainieren – so kommuniziert das System mit den Anwendern in deren gewohnter Alltagssprache. Ein Szenario, das der allgemeinen Sicherheit dient, ist die Generierung von barrierefreien Warnmeldungen. Im Katastrophenfall – z.B. einem Erdbeben – lassen sich mit Allinga Voice vollautomatisiert Anweisungen an die Zivilbevölkerung erstellen, die über Lautsprechersysteme im öffentlichen Raum und über das Radio wiedergegeben werden können – und dies schneller und flexibler, als es mit menschlichen Sprecherinnen und Sprechern möglich wäre. So sorgt die Technologie nicht nur für klare, eindeutige Kommunikation, sondern schafft auch die Grundlage für die Ausspielung von an den jeweiligen Ort angepassten Inhalten. Die Anwendung hat sich schon in der simulierten Praxis bewährt: Beim Bundeswarntag 2023 wurden im Rahmen der Emergency Warning Functionality (kurz EWF – übrigens auch eine im Fraunhofer IIS entstandenen Technologie) mit Allinga Voice erzeugte Meldungen erfolgreich an Digitalradios ausgespielt.

Individuelle Konfigurationen – auch für komplexe Arbeitsumgebungen

Oliver Hellmuth, Abteilungsleiter Semantische Audiosignalverarbeitung am Fraunhofer IIS, beschreibt das Besondere an der Sprachsynthese so: »Allinga Voice eröffnet völlig neue Möglichkeiten für die Nutzung von natürlicher Sprache: Unternehmen können ihre Sprachlösung individuell gestalten und in ihre Systeme und das Arbeitsumfeld einpassen. Sie haben die Möglichkeit, Stimmen einen persönlichen Akzent hinzuzufügen oder einen speziellen Stil zu entwickeln. Die Technologie unterstützt mehrere Sprachen, sodass problemlos zwischen Deutsch, Englisch oder Französisch gewechselt werden kann.«

Die Allinga-Technologien bieten Unternehmen zahlreiche Vorteile für eine barrierefreie Kommunikation und eine natürliche Interaktion mit der Technik. Dazu verfügen sie über einzigartige Eigenschaften wie Modularität, Datenschutz, Offenheit hinsichtlich anderer Technologien sowie Vernetzung und Verbreitung durch ein offenes Ökosystem.

Gemeinsam in eine sprachbasierte digitale Zukunft

Mit den Modulen Allinga Voice und Allinga Ears ist die Entwicklung der Sprachtechnologien am Fraunhofer IIS bei weitem nicht abgeschlossen. Gegenstand der aktuellen Forschung sind sogenannte Large Language Models, kurz LLMs. Diese KI-Systeme können komplexe Aufgaben lösen, die ihnen vom Menschen in natürlicher Sprache gestellt werden. Im Forschungsprojekt OpenGPT-X arbeiten mehrerer Fraunhofer-Institute mit Partnern aus Forschung und Wirtschaft gemeinsam an europäischen Sprachmodellen, die – anders als die kommerziellen Angebote aus den USA oder China – nicht nur den strengen EU-Datenschutzverordnungen entsprechen, sondern auch die Vielfalt an europäischen Sprachen beherrschen. Als erstes Ergebnis wurde Ende 2024 das große KI-Sprachmodell »Teuken-7B« veröffentlicht. Es wurde von Grund auf mit den 24 Amtssprachen der EU trainiert und umfasst sieben Milliarden Parameter. Die Deutsche Telekom transferierte die Entwicklung erfolgreich von der Forschung in die Wirtschaft und ist der erste Anbieter, der den Zugang zu Teuken-7B kommerziell zur Verfügung stellt.

Wie Maschinen menschliche Sprache lernen

»Made in Germany« als Garant für Sicherheit

Spezialisierte KI-Module für eine Vielzahl von Anwendungen

Individuelle Konfigurationen – auch für komplexe Arbeitsumgebungen

Gemeinsam in eine sprachbasierte digitale Zukunft

Mehr zum Thema

Das könnte Sie auch interessieren

Allinga

Lebendige Telekommunikation dank fortschrittlicher Audiocodecs

»Wir werden alle generative KI anwenden«

Kontakt

Der Newsletter zum Magazin

Startseite

Contact Press / Media

Mandy Garcia