Unser Lehrstuhl beschäftigt sich mit einer Vielzahl an Themen rund um die Videokompression. Dabei erforschen wir aktuelle Videocodierstandards wie HEVC und entwickeln neue Kompressionsmethoden für zukünftige Codecs wie VVC. Zusätzlich betrachten wir völlig neue Codieransätze für spezielle Inhalte wie Medizindatensätze, computergenerierte Videos, Fisheye- und 360°-Videodaten. Aktuell werden folgende Themengebiete behandelt:

  • Codierung mit Hilfe von Methoden des Machine Learning
  • Codierung medizinischer Datensätze
  • Energieeffiziente Videocodierung

Ansprechpartner: Dr.-Ing. Christian Herglotz


Codierung mit Hilfe des Machine Learning

Codierung hochaufgelöster Videodaten:

Ansprechpartner: Kristian Fischer, M.Sc.

Heutzutage werden Videodaten in immer höherer Auflösung angeboten. Streamingportale wie Netflix oder Amazon Prime bieten immer mehr Inhalte mit 4K Auflösung an. Dabei beinhaltet ein einzelnes Frame eines 4K Videos bereits 3840×2160 Pixel. Diese enormen Datenmengen müssen nun möglichst effizient und mit bestmöglicher Qualität zu den Endbenutzern in die Wohnzimmer transportiert werden.

Gerade bei solch großen Datenmengen wie 4K Videos wurde in der Vergangenheit bereits gezeigt, dass es für Übertragungsszenarien mit niedriger Datenrate sinnvoll ist, die einzelnen 4K Frames vor der Übertragung um die Hälfte der Auflösung zu reduzieren und somit nur noch ein Video auf full HD Auflösung (1920×1080 Pixel) übertragen wird. Dadurch können Artefakte, die durch die Codierung auftreten sichtbar reduziert werden. Auf der Empfängerseite muss dann natürlich die Auflösung des ankommenden Videos auf 4K hochskaliert werden. Der dabei verwendete Upscalingalgorithmus ist maßgeblich für die Qualität des Videos, das schlussendlich beim Endbenutzer ankommt. Die aktuell verwendeten Upscalingalgorithmen basieren vornehmlich auf neuronalen Netzen, die im Vorfeld lernen, wie sie die Auflösung eines Videos am besten vergrößern.

 

Deep Learning für Videocodierung

Ansprechpartner: Fabian Brand, M.Sc

Durch die steigende Rechenleistung von mobilen Endgeräten, wird es langfristig möglich sein, Techniken aus dem Bereich Deep Learning in Codierstandards zu übernehmen. Zahlreiche Komponenten eines Videocoders können mithilfe neuronaler Netze umgesetzt werden. Der Fokus liegt hier im Bereich der Intra-Frame Prediction. Das Prinzip der Intra-Frame Prediction ist seit langem fester Bestandteil der meisten Videocoder. Hierbei wird ein Teil des Bildes aus seiner räumlichen Umgebung geschätzt, sodass nur der Unterschied übertragen werden muss. Im Gegensatz zur sogenannten Inter-Frame Prediction, die auch andere Frames des Videos benutzt, verwendet die Intra-Frame Prediction nur das zu kodierende Bild selbst.

In bisherigen Standards wird hauptsächlich angular prediction eingesetzt. Hierbei werden Pixel vom Rand in einem bestimmten Winkel, der zusätzlich übertragen werden muss in den Block kopiert. Diese Methode ist sehr effizient, ist aber nicht in der Lage nicht-lineare Strukturen abzubilden. Da neuronale Netze in der Lage sind, beliebige Funktionen nachzubilden, sind sie in der Lage auch komplexere Strukturen nachzubilden. Das folgende Bild zeigt ein Beispiel von einem Block, der einmal mit traditionellen Methoden und einmal mit einem neuronalem Netz prediziert wurde. Man sieht, dass das neuronale Netz in der Lage ist, die runde Form gut nachzubilden.

Links: Original, Mitte: Traditionelle Methode (VTM 4.2), Rechts: Prediktion mit neuronalem Netz

 

 


Codierung medizinischer Datensätze

Skalierbare verlustlose Codierung mit Hilfe des kompensierten multidimensionalen Wavelet-Liftings:

Ansprechpartner: Daniela Lanz, M.Sc.

Dieses Forschungsprojekt beschäftigte sich in erster Linie mit der skalierbaren verlustlosen Codierung medizinischer Hypervolumendatensätze. Eine effiziente skalierbare Speicherung von dynamischen Volumen aus der Computertomographie stellt insbesondere für die Telemedizin ein äußerst erstrebenswertes Ziel dar. Dabei ist die verlustlose Rekonstruktion gesetzlich vorgeschrieben und muss daher stets gewährleistet werden. Mit Hilfe von kompensiertem Waveletlifting lassen sich Skalierbarkeit und verlustlose Rekonstruktion in einem Verarbeitungsschritt vereinen.

 

Bei einer Wavelet Transformation wird ein Signal in einen hoch- und tieffrequenten Anteil zerlegt. Somit wird eine Analyse des Signals in mehreren Auflösungsstufen, sowie eine effiziente Codierung durch die Energiekompaktierung im tieffrequenten Teilband ermöglicht. Weiterhin kann mit geeigneten Kompensationsverfahren die Qualität des Tiefpassbandes gesteigert werden. Skalierbarkeit ist mit dem untersuchten Codierkonzept prinzipiell nicht nur hinsichtlich der Qualität möglich, sondern auch in Bezug auf die örtliche und zeitliche Auflösung des Eingangssignals.  Die Abbildung zeigt hierbei das Blockdiagramm, das die Verarbeitungsschritte des 3-dimensionalen Waveletliftings beschreibt.

 

Codierung mittels H.265/HEVC:

Ansprechpartner: Karina Jaskolka, M.Sc.

Der Codierstandard H.265/HEVC ist ein effizientes Tool, um Aufnahmen von beleuchteten Szenen zu codieren. In diesem Forschungsprojekt wird der H.265/HEVC an die Eigenschaften medizinischer Datensätze angepasst. Es handelt sich hierbei um 3D oder 3D+t Bilder oder Videos vom menschlichen Körper, die mit Hilfe von strukturellen bildgebenden Verfahren wie Computertomographie oder Magnetresonanztomographie aufgenommen wurden. Unterschiede gegenüber gewöhnlichen Videodaten ergeben sich beispielsweise aus den speziellen Eigenschaften der Daten, wie z. B. sich verformenden Bewegungen, die Existenz einer dritten Dimension, das Fehlen von Beleuchtung  und die Rauschcharakteristik.


 

Energieeffiziente Videokommunikation

Energieeffiziente Videocodierung:

Ansprechpartner: Matthias Kränzler, M.Sc.

In den letzten Jahren steigen die Menge und der Anteil an Videodaten im globalen Internetdatenverkehr stetig zu. Sowohl die Encodierung auf der Senderseite, als auch die Decodierung auf der Empfängerseite benötigen viel Energie. Forschung zu energieeffizienter Videodecodierung hat gezeigt, dass es möglich ist den Energiebedarf der Decodierung zu optimieren. Dieses Arbeitsgebiet beschäftigt sich mit der Modellierung der Energie, die für die Encodierung von komprimierten Videodaten notwendig ist. Ziel der Modellierung ist die Optimierung der Energieeffizienz der gesamten Videocodierung.

„Big Buck Bunny“ by Big Buck Bunny is licensed under CC BY 3.0

Energieeffiziente Videodecodierung:

Ansprechpartner: Dr.-Ing. Christian Herglotz

Dieses Arbeitsgebiet beschäftigt sich mit der energieeffizienten Decodierung von komprimierten Videodaten. Die Decodierung ist insbesondere für batteriebetriebene Geräte wie Smartphones oder Tablet PCs von Bedeutung, die z.B. bei mobilen Videostreaminganwendungen viel Energie benötigen. Eine anschauliche Visualisierung der benötigten Prozessenergien verschiedener Bitströme auf verschiedenen Systemen ist auf folgender Seite realisiert:

Decoding Energy Visualization Tool (DEVISTO)

Durch ausgeklügelte Algorithmen und Methoden kann dieser Energieverbrauch gesenkt werden, ohne dass die visuelle Qualität der Sequenzen leidet. Hierzu wurde in unserer Arbeit zuerst ein Modell erstellt, mit dem der Energieverbrauch eines Decoders anhand von Bitstrommerkmalen akkurat geschätzt werden kann. Die Energie lässt sich dann den Bitstrommerkmalen zuordnen und visualisieren.

Einen Online-Demonstrator und den Quellcode findet man auf folgender Webseite:

Decoding Energy Estimation Tool (DENESTO)

Ein entsprechender Coder, der dieses Modell ausnutzt, um energieeffiziente Bitströme zu generieren, kann auf folgender Seite heruntergeladen werden:

Decoding-Energy-Rate-Distortion Optimization (DERDO) for Video Coding