Herr Grill, mp3 wurde von Forschern und Forscherinnen in Deutschland entwickelt, aber haben wirklich andere »das große Geschäft mit komprimierten Daten« gemacht?
Bernhard Grill: Für die Fraunhofer-Gesellschaft, aber auch für die deutsche Wirtschaft war und ist mp3 ein Erfolgsmodell. Die Lizenzeinnahmen betrugen alleine mit mp3, also unserem Audiocodec der ersten Generation, über viele Jahre zwischen 50 und 100 Millionen Euro pro Jahr. Auch unsere Technologien der zweiten und dritten Generation (AAC, HE-AAC etc.) sind weltweit in über 12 Milliarden Geräten im Einsatz und damit wirtschaftlich ähnlich erfolgreich. Das Fraunhofer IIS ist heute weltweit eine der größten und bedeutendsten Forschungseinrichtungen für Audiotechnologien.
Die breite Öffentlichkeit bringt das Fraunhofer IIS immer noch im Wesentlichen mit mp3 in Verbindung. Wo stehen Sie heute?
Bernhard Grill: Wir haben uns bei der Entwicklung neuer Technologien differenziert und spezialisiert, so dass wir heute so gut wie jede neue Entwicklung im Audiobereich bedienen können. Wir arbeiten erfolgreich an Technologien für Car-Audio, Smart Speaker, 3D-Soundbars und auch im Bereich Bewegtbildtechnologien sind wir aktiv, zum Beispiel mit JPEG-XS. Allerdings ist Codierung nach wie vor unser Hauptthema und entwickelt sich prächtig weiter mit Audiocodecs der 4. Generation: xHE-AAC wurde speziell für das Streaming von AV-Inhalten entwickelt. Dank nochmal niedrigerer Datenrate bei gleichzeitig hoch bleibender Qualität kann man unterbrechungsfrei an fast allen Orten (auch in 2G-Gebieten) Inhalte wiedergeben. Dieser Codec ist mittlerweile erfolgreich am Markt platziert, er ist in Android und iOS integriert und wird schon sehr bald auch von großen Streamingdiensten genutzt.
Kommt es bei xHE-AAC auf kleine Datenrate an, kann man mit MPEG-H einhüllenden Rundum-Klang übertragen. Zudem haben die Nutzer*innen, dank des objektbasierten Ansatzes von MPEG-H, die Möglichkeit, die Wiedergabe an eigene Vorlieben anzupassen. Dass man den immersiven Klang auch für Musikstreaming nutzen kann, hat Sony entdeckt und setzt beim neuen 360 Reality Audio Format auf MPEG-H.
Durch intensive Forschung im Bereich Sprachsignalverarbeitung konnten wir uns ein völlig neues Feld erschließen. Mit dem EVS-Codec haben wir, gemeinsam mit den international führenden Unternehmen der Mobilfunkbranche, ein neues Format geschaffen, das Telefongespräche in Hifi-Qualiät ermöglicht. Heute ist EVS bereits in den meisten neuen Handymodellen vorhanden.
Auch methodisch entwickeln wir uns weiter, zum Beispiel durch Verbindung der Signalverarbeitung mit Methoden der Künstlichen Intelligenz. Wir hoffen damit lange bekannte Probleme der Audio- und Videowelt zu lösen, auf die man mit den klassischen Ansätzen noch keine Antwort gefunden hat.
Gibt es bei so vielen Erfolgen noch »Blinde Flecken« in der Audiowelt, wo noch keine Fraunhofer-Technologie genutzt wird?
Bernhard Grill: Eigentlich nicht. Wir sind in allen Geräten vertreten, die irgendwie Audio wiedergeben können. Wir sind in jedem Handy, in jedem Fernseher – da haben wir annähernd 100 Prozent Marktdurchdringung.
Aber das heißt nicht, dass es nicht noch Herausforderungen gibt: EVS zum Beispiel ist zwar in den Geräten drin, wird aber noch nicht überall in den Netzen genutzt. Für die kommenden 5G-Sprachdienste wurde es als verpflichtender Sprachcodec standardisiert, so dass wir hier hoffen, dass in Zukunft alle Handytelefonate mit EVS geführt werden.
MPEG-H ist zwar in vielen TV-Standards aufgenommen, dennoch müssen noch viele Länder entscheiden, ob und wann sie die neuen Technologien einführen werden. Hier müssen wir weiterhin aktiv bleiben und die Vorteile immer wieder herausstellen denn gerade bei MPEG-H gibt es einen starken proprietären Wettbewerber.