Unser Lehrstuhl beschäftigt sich mit einer Vielzahl an Themen rund um die Videokompression. Dabei erforschen wir aktuelle Videocodierstandards wie HEVC und entwickeln neue Kompressionsmethoden für zukünftige Codecs wie VVC. Zusätzlich betrachten wir völlig neue Codieransätze für spezielle Inhalte wie Medizindatensätze, computergenerierte Videos, Fisheye- und 360°-Videodaten. Aktuell werden folgende Themengebiete behandelt:

  • Codierung mit Hilfe von Methoden des Machine Learning
  • Energieeffiziente Videokommunikation
  • Codierung medizinischer Datensätze

Ansprechpartner: Dr.-Ing. Christian Herglotz


Codierung mit Hilfe des Machine Learning

Videocodierung für maschinelle Kommunikation basierend auf tiefem Lernen:

Ansprechpartner: Kristian Fischer, M.Sc.

Üblicherweise sind aktuelle Videocodecs auf das menschliche Wahrnehmungsvermögen ausgelegt und optimiert. Allerdings gewinnt die sogenannte Maschine-zu-Maschine (M2M) Kommunikation immer mehr an Bedeutung, bei denen maschinelle Algorithmen das resultierende komprimierte Videosignal analysieren, um damit bestimmte Aufgaben erfüllen zu können. Diese Aufgaben erstrecken sich von der Automatisierung industrieller Prozesse, der Überwachung von öffentlichen Orten bis hin zum autonomen Fahren von Autos. Bei solchen Szenarien ist dann nicht mehr die subjektive visuelle Qualität für den Menschen maßgeblich, sondern die Detektionsrate des Algorithmus. Bei den Algorithmen, die final die Qualität der Codierung bewerten, wird der Fokus auf neuronale Objektdetektionnetzwerke (R-CNNs) gelegt


Die entscheidende Frage für die Videokompression in der M2M-Kommunikation ist nun, wie stark die Originaldaten komprimiert werden können, um immer noch ein zufriedenstellendes Dektionsergebnis zu bekommen. Außerdem kann hier die Frage gestellt werden, ob andere Ansätze für den Videocodec verwendet werden sollten, um ein möglichst optimales Verhältnis aus Kompressions- und Detektionsrate zu erlangen.

 

Deep Learning für Videocodierung

Ansprechpartner: Fabian Brand, M.Sc

Durch die steigende Rechenleistung von mobilen Endgeräten, wird es langfristig möglich sein, Techniken aus dem Bereich Deep Learning in Codierstandards zu übernehmen. Zahlreiche Komponenten eines Videocoders können mithilfe neuronaler Netze umgesetzt werden. Der Fokus liegt hier im Bereich der Intra-Frame Prediction. Das Prinzip der Intra-Frame Prediction ist seit langem fester Bestandteil der meisten Videocoder. Hierbei wird ein Teil des Bildes aus seiner räumlichen Umgebung geschätzt, sodass nur der Unterschied übertragen werden muss. Im Gegensatz zur sogenannten Inter-Frame Prediction, die auch andere Frames des Videos benutzt, verwendet die Intra-Frame Prediction nur das zu kodierende Bild selbst.

In bisherigen Standards wird hauptsächlich angular prediction eingesetzt. Hierbei werden Pixel vom Rand in einem bestimmten Winkel, der zusätzlich übertragen werden muss in den Block kopiert. Diese Methode ist sehr effizient, ist aber nicht in der Lage nicht-lineare Strukturen abzubilden. Da neuronale Netze in der Lage sind, beliebige Funktionen nachzubilden, sind sie in der Lage auch komplexere Strukturen nachzubilden. Das folgende Bild zeigt ein Beispiel von einem Block, der einmal mit traditionellen Methoden und einmal mit einem neuronalem Netz prediziert wurde. Man sieht, dass das neuronale Netz in der Lage ist, die runde Form gut nachzubilden.

Links: Original, Mitte: Traditionelle Methode (VTM 4.2), Rechts: Prediktion mit neuronalem Netz

 

 


Energieeffiziente Videokommunikation

Heutzutage wird die Videokommunikation weltweit von Milliarden von Nutzern verwendet. Die zugehörigen Applikationen werden auf verschiedensten Geräten durchgeführt, zum Beispiel Handys, Notebooks oder Fernseher. Eine aktuelle Studie hat in diesem Zusammenhang gezeigt, dass 1% der Treibhausgasemissionen durch Videokommunikationsanwendungen verursacht wird (Link). Hierin enthalten sind alle Faktoren wie die Aufnahme, die Speicherung, die Kompression, die Decodierung und die Übertragung der Videodaten. Aufgrund dieses hohen Anteils und dem prognostizierten Wachstum ist es sehr wichtig, den tatsächlichen Energieverbrauch aller dieser Systeme zu erforschen, um für die Zukunft neue, energieeffiziente Lösungen entwickeln zu können.

Daher beschäftigen wir uns in diesem Forschungsthema mit der energieffizienten Videokommunikation. Dazu haben wir in den letzten Jahren verschiedenste Messaufbauten entwickelt, um Hardwaremodule wie Handys, Evaluationsboards, einzelne Chips oder PCs energetisch zu vermessen. Mit Hilfe dieser Daten entwickeln wir extrem genaue Energie- und Leistungsmodelle, die den Verbrauch während der Ausführung akkurat und verlässlich schätzen. Die Modelle werden schließlich dafür eingesetzt, neuartige und energieeffiziente Methoden vorzuschlagen und zu entwickeln.

Für die Zukunft wollen noch tiefer in die Thematik einsteigen und alle Komponenten im Detail betrachten, die in der Videokommunikation verwendet werden. Aktuell arbeiten wir an Themen wie die Übertragung der Videos, 360°-Videos, die Codierung und neue Videocodecs. Wir suchen stets nach neuen Themen und sind offen für interessante Abschlussarbeiten, Kollaborationen oder anderen Ideen.


Folgende Themen werden aktuell bearbeitet:

Energieeffiziente Videocodierung:

Ansprechpartner: Matthias Kränzler, M.Sc.

In den letzten Jahren steigen die Menge und der Anteil an Videodaten im globalen Internetdatenverkehr stetig zu. Sowohl die Encodierung auf der Senderseite, als auch die Decodierung auf der Empfängerseite benötigen viel Energie. Forschung zu energieeffizienter Videodecodierung hat gezeigt, dass es möglich ist den Energiebedarf der Decodierung zu optimieren. Dieses Arbeitsgebiet beschäftigt sich mit der Modellierung der Energie, die für die Encodierung von komprimierten Videodaten notwendig ist. Ziel der Modellierung ist die Optimierung der Energieeffizienz der gesamten Videocodierung.

„Big Buck Bunny“ by Big Buck Bunny is licensed under CC BY 3.0

Energieeffiziente Videodecodierung:

Ansprechpartner: Dr.-Ing. Christian Herglotz

Dieses Arbeitsgebiet beschäftigt sich mit der energieeffizienten Decodierung von komprimierten Videodaten. Die Decodierung ist insbesondere für batteriebetriebene Geräte wie Smartphones oder Tablet PCs von Bedeutung, die z.B. bei mobilen Videostreaminganwendungen viel Energie benötigen. Eine anschauliche Visualisierung der benötigten Prozessenergien verschiedener Bitströme auf verschiedenen Systemen ist auf folgender Seite realisiert:

Decoding Energy Visualization Tool (DEVISTO)

Durch ausgeklügelte Algorithmen und Methoden kann dieser Energieverbrauch gesenkt werden, ohne dass die visuelle Qualität der Sequenzen leidet. Hierzu wurde in unserer Arbeit zuerst ein Modell erstellt, mit dem der Energieverbrauch eines Decoders anhand von Bitstrommerkmalen akkurat geschätzt werden kann. Die Energie lässt sich dann den Bitstrommerkmalen zuordnen und visualisieren.

Einen Online-Demonstrator und den Quellcode findet man auf folgender Webseite:

Decoding Energy Estimation Tool (DENESTO)

Ein entsprechender Coder, der dieses Modell ausnutzt, um energieeffiziente Bitströme zu generieren, kann auf folgender Seite heruntergeladen werden:

Decoding-Energy-Rate-Distortion Optimization (DERDO) for Video Coding


Codierung medizinischer Datensätze

Skalierbare verlustlose Codierung mit Hilfe des kompensierten multidimensionalen Wavelet-Liftings:

Ansprechpartner: Daniela Lanz, M.Sc.

Dieses Forschungsprojekt beschäftigte sich in erster Linie mit der skalierbaren verlustlosen Codierung medizinischer Hypervolumendatensätze. Eine effiziente skalierbare Speicherung von dynamischen Volumen aus der Computertomographie stellt insbesondere für die Telemedizin ein äußerst erstrebenswertes Ziel dar. Dabei ist die verlustlose Rekonstruktion gesetzlich vorgeschrieben und muss daher stets gewährleistet werden. Mit Hilfe von kompensiertem Waveletlifting lassen sich Skalierbarkeit und verlustlose Rekonstruktion in einem Verarbeitungsschritt vereinen.

 

Bei einer Wavelet Transformation wird ein Signal in einen hoch- und tieffrequenten Anteil zerlegt. Somit wird eine Analyse des Signals in mehreren Auflösungsstufen, sowie eine effiziente Codierung durch die Energiekompaktierung im tieffrequenten Teilband ermöglicht. Weiterhin kann mit geeigneten Kompensationsverfahren die Qualität des Tiefpassbandes gesteigert werden. Skalierbarkeit ist mit dem untersuchten Codierkonzept prinzipiell nicht nur hinsichtlich der Qualität möglich, sondern auch in Bezug auf die örtliche und zeitliche Auflösung des Eingangssignals.  Die Abbildung zeigt hierbei das Blockdiagramm, das die Verarbeitungsschritte des 3-dimensionalen Waveletliftings beschreibt.

 

Codierung mittels H.265/HEVC:

Ansprechpartner: Karina Jaskolka, M.Sc.

Der Codierstandard H.265/HEVC ist ein effizientes Tool, um Aufnahmen von beleuchteten Szenen zu codieren. In diesem Forschungsprojekt wird der H.265/HEVC an die Eigenschaften medizinischer Datensätze angepasst. Es handelt sich hierbei um 3D oder 3D+t Bilder oder Videos vom menschlichen Körper, die mit Hilfe von strukturellen bildgebenden Verfahren wie Computertomographie oder Magnetresonanztomographie aufgenommen wurden. Unterschiede gegenüber gewöhnlichen Videodaten ergeben sich beispielsweise aus den speziellen Eigenschaften der Daten, wie z. B. sich verformenden Bewegungen, die Existenz einer dritten Dimension, das Fehlen von Beleuchtung  und die Rauschcharakteristik.