Deep Compression

Künstliche Intelligenz wird meist mit Deep Learning umgesetzt, also mit speziell trainierten tiefen und damit komplexen künstlichen neuronalen Netzen. Einmal trainierte Netze können ohne wesentliche Qualitätseinbußen in ihrer Komplexität deutlich reduziert werden, was eine effizientere Übertragung und Ausführung ermöglicht. Techniken hierfür werden mit Deep Compression bezeichnet. Mit Deep Compression lässt sich etwa ein typisches Netzwerk um den Faktor 10 schrumpfen, bevor es über ein Mobilfunknetz an die Anwender verteilt wird. Die Einsparung an Zeit und Energie ist unmittelbar. 

Wissensnugget Deep Compression

Datenschutz und Datenverarbeitung

Wir setzen zum Einbinden von Videos den Anbieter YouTube ein. Wie die meisten Websites verwendet YouTube Cookies, um Informationen über die Besucher ihrer Internetseite zu sammeln. Wenn Sie das Video starten, könnte dies Datenverarbeitungsvorgänge auslösen. Darauf haben wir keinen Einfluss. Weitere Informationen über Datenschutz bei YouTube finden Sie in deren Datenschutzerklärung unter: https://policies.google.com/privacy

 

 

Technologie

Tiefe künstliche neuronale Netze, das Deep Learning, ist heute aus der Anwendung künstlicher Intelligenz (KI) nicht mehr wegzudenken. Gerade bei der initialen Problemlösung werden hier oft sehr große und komplexe Modelle erzeugt. Diese benötigen dann bei der Anwendung viel Rechenleistung, Speicher, Energie und nicht zuletzt Übertragungskapazität. Eine Reduktion der Modellkapazität verringert diesen Fußabdruck und daher nicht nur Kosten, sondern ist auch ein Weg zu einer grüneren und nachhaltigeren KI.

Der Forschungszweig der Deep Compression beschäftigt sich mit der automatische Reduktion von Modellkapazität eines trainierten neuronalen Netzes bei gleichzeitigem Erhalt der nötigen Performance. Etablierte Verfahren sind zum einen das Pruning, das gezielte beschneiden des Netzwerkes durch Entfernen von Verbindungen, Filtern und oder Neuronen. Des Weiteren gehört hierzu auch die Quantisierung der Gewichte von Fliesskommazahlen auf wenige Bits. Darüber hinaus sind noch weitergehende Verfahren entwickelt worden wie die Reduktion von Gewichts- und Filtertensoren durch Projektion in niedriger dimensionale Unterräume. Auch systematische strukturelle Umbauten wie die Ersetzung von hochdimensionaler durch mehrere eindimensionale Faltungen oder die Separation von Faltungsoperationen zählen dazu. Für die Übertagung kommen auch verlustfreie Kompressionsverfahren wie etwa DeepCABAC zum Einsatz.

Demonstration

Die Abbildung rechts zeigt, wie sich beispielsweise eine Geräuscherkennung durch Deep Compression sehr energiesparende auf einem eingebetteten System ausführen lässt.
Ähnliches gilt auch für Anwendungen aus dem Bereich Computer Vision, Bewegungsklassifikation für Wearables oder zu Anomaliedetektion im Condition Monitoring.

Das unkomprimiertes KI Modell auf der linken Seite kann nur auf größeren Plattformen mit herkömmlicher CPU ausgeführt werden (Klassifikationsgenauigkeit 97 %, 22 Watt),
wohingegen das komprimierte Netz auf einem Mikrokontroller ausgeführt werden kann (Klassifikationsgenauigkeit 97 %, 0,1 Watt). 

Angebot

  • F&E Dienstleistung
  • Beratung
  • Schulung
  • Lizenzierung

Anwendung

Deep Compression wird im Bereich TinyML eingesetzt und ermöglicht Anwendungen in der Industrie, Sport und Condition Monitoring.

Wissenschaftliche Veröffentlichungen

Recipes for Post-training Quantization of Deep Neural Networks

Ashutosh Mishra, Christoffer Löffler, Axel Plinge

In: Workshop on Energy Efficient Machine Learning and Cognitive Computing; Saturday, December 05, 2020 Virtual (from San Jose, California, USA)

Given the presence of deep neural networks (DNNs) in all kinds of applications, the question of optimized deployment is becoming increasingly important. One important step is the automated size reduction of the model footprint. Of all the methods emerging, post-training quantization is one of the simplest to apply. Without needing long processing or access to the training set, a straightforward reduction of the memory footprint by an order of magnitude can be achieved. A difficult question is which quantization methodology to use and how to optimize different parts of the model with respect to different bit width. We present an in-depth analysis on different types of networks for audio, computer vision, medical and hand-held manufacturing tools use cases; Each is compressed with fixed and adaptive quantization and fixed and variable bit width for the individual tensors.

 

Getting AI in your pocket with deep compression

Ashutosh Mishra,  Axel Plinge

Deep neural networks (DNNs) have become state-of-the-art for a wide range of applications including computer vision, speech recognition, and robotics. The superior performance often comes at the cost of high computational complexity. The process of creating and training a DNN model is difficult and labor-intense, and the resulting models rarely optimized for running on embedded devices. Automated techniques to improve energy efficiency and speed without sacrificing application accuracy are vital. Big companies showed that compressing weights or squeezing the architecture can reduce the model complexity by a factor of 20-50 while maintaining almost identical performance. The field of 'deep compression' has become a dedicated branch of research. Technical support for such optimizations is starting to be available by a growing set of tools. This talk gives an overview of deep compression techniques and tools with example applications.