Energieeffiziente Videocodierung

Dieses Arbeitsgebiet beschäftigt sich mit der energieeffizienten Decodierung von komprimierten Videodaten. Die Decodierung ist insbesondere für batteriebetriebene Geräte wie Smartphones oder Tablet PCs von Bedeutung, die z.B. bei mobilen Videostreaminganwendungen viel Energie benötigen. Eine anschauliche Visualisierung der benötigten Prozessenergien verschiedener Bitströme auf verschiedenen Systemen ist auf folgender Seite realisiert:

Decoding Energy Visualization Tool (DEVISTO)

Durch ausgeklügelte Algorithmen und Methoden kann dieser Energieverbrauch gesenkt werden, ohne dass die visuelle Qualität der Sequenzen leidet. Hierzu wurde in unserer Arbeit zuerst ein Modell erstellt, mit dem der Energieverbrauch eines Decoders anhand von Bitstrommerkmalen akkurat geschätzt werden kann. Die Energie lässt sich dann den Bitstrommerkmalen zuordnen und visualisieren.

Einen Online-Demonstrator und den Quellcode findet man auf folgender Webseite:

Decoding Energy Estimation Tool (DENESTO)

Ein entsprechender Coder, der dieses Modell ausnutzt, um energieeffiziente Bitströme zu generieren, kann auf folgender Seite heruntergeladen werden:

Decoding-Energy-Rate-Distortion Optimization (DERDO) for Video Coding

 


Skalierbare Videocodierung

Heutzutage verbreitete Standards zur Videocodierung sind für die verlustbehaftete Kompression von Videodaten optimiert. In vielen professionellen Anwendungen, z.B. der Medizintechnik oder der Archivierung, sind Kompressionsartefakte allerdings nicht zulässig. Die skalierbare Videocodierung erlaubt die Erstellung eines Bitstroms, aus dem sowohl ein verlustbehaftetes als auch ein verlustloses Video rekonstruiert werden kann und ist damit eine sehr effiziente und elegante Lösung für viele Anwendungen.

Ein weiteres Merkmal heutiger Videocodecs ist, dass die Rechenkomplexität hauptsächlich auf die Seite des Encoders verschoben wurde. In vielen Anwendungen, beispielsweise auf Smartphones, sollen Videos heutzutage allerdings in Echtzeit auf günstiger Hardware codiert werden. Eine andere Form der Skalierbarkeit stellt hier die Flexibilität des Encoders dar. Durch besonderes Design lässt sich dessen Rechenkomplexität skalieren, verbunden mit einem nur sehr geringen Verlust an Effizienz.


Codierung und Verarbeitung von Fisheye-Aufnahmen

In der Videoüberwachung sowie im Automobilbereich kommen häufig sogenannte Fisheye-Kameras zum Einsatz, die es erlauben, ultraweitwinklige Aufnahmen zu erzeugen, um so ein möglichst großes Sichtfeld von mehr als 180 Grad mit nur einer Kamera abzubilden. Kennzeichnend für die resultierenden Fisheye-Aufnahmen sind die radialen Verzerrungen, die durch die vom Lochkameramodell abweichende Projektion begründet sind. Durch diese abweichende Bildcharakteristik können Verarbeitungsalgorithmen, die auf perspektivisches Bildmaterial ausgelegt sind, eine geringere Performanz erzielen. Daher ist die Entwicklung neuer Bild- und Videosignalverarbeitungsmethoden für Fisheye-Aufnahmen notwendig. Anwendungen sind beispielsweise die Schätzung von Bewegung in einer Videosequenz, die Verschleierung von übertragungsbedingten Bildfehlern, bewegungsbasierte Auflösungserhöhung sowie hybride Videocodierung.

Die im Rahmen dieses Forschungsthemas erzeugten und aufgenommen Fischaugensequenzen wurden als gesammelter Datensatz veröffentlicht und stehen unter http://www.lms.lnt.de/fisheyedataset/ zum Download bereit.


Codierung medizinischer Datensätze

Kompensiertes multidimensionales Wavelet-Lifting:

In diesem Forschungsprojekt werden Lifting-basierte Wavelet Transformationen zur Analyse und Codierung medizinischer Volumendaten untersucht. Eine effiziente skalierbare Speicherung von dynamischen Volumen aus der Computertomographie stellt insbesondere für die Telemedizin ein äußerst erstrebenswertes Ziel dar, indem der Zugriff auf Teile des Volumens ermöglicht wird, ohne das vollständige Volumen rekonstruieren zu müssen. Mit Hilfe einer Wavelet Transformation kann ein Signal in einen hoch- und tieffrequenten Anteil zerlegt werden. Somit wird eine Analyse des Signals in mehreren Auflösungsstufen, sowie eine effiziente Codierung durch die Energiekompaktierung im tieffrequenten Teilband ermöglicht. Weiterhin kann mit geeigneten Kompensationsverfahren die Qualität des Tiefpassbandes gesteigert werden.

Codierung medizinischer Datensätze mittels H.265/HEVC:

Der Codierstandard H.265/HEVC ist ein effizientes Tool, um Aufnahmen von beleuchteten Szenen zu codieren. In diesem Forschungsprojekt wird der H.265/HEVC an die Eigenschaften medizinischer Datensätze angepasst. Es handelt sich hierbei um 3D oder 3D+t Bilder oder Videos vom menschlichen Körper, die mit Hilfe von strukturellen bildgebenden Verfahren wie Computertomographie oder Magnetresonanztomographie aufgenommen wurden. Unterschiede gegenüber gewöhnlichen Videodaten ergeben sich beispielsweise aus den speziellen Eigenschaften der Daten, wie z. B. sich verformenden Bewegungen, die Existenz einer dritten Dimension, das Fehlen von Beleuchtung  und die Rauschcharakteristik.


Zeitlich-Örtliche Prädiktion

Die meisten aktuell verwendeten Videocodierstandards basieren auf der Idee der hybriden Videocodierung. Ein sehr wichtiger Bestandteil von hybriden Videocodecs ist die Prädiktion. Diese führen bisher die Prädiktion entweder in zeitlicher Richtung oder in örtlicher Richtung durch. Bei der zeitlichen Prädiktion wird aus einem vorangegangenen Bild ein zum aktuell zu codierenden Bereich möglichst ähnlicher Bereich bestimmt, der dann als Prädiktor dient. Bei der örtlichen Prädiktion werden lediglich die bereits übertragenen Bildbereiche geschickt in den zu codierenden Bereich fortgesetzt. Obwohl aktuelle Videocodecs adaptiv zwischen zeitlicher und örtlicher Prädiktion umschalten können, wird keine kombinierte zeitlich-örtliche Prädiktion durchgeführt, und somit die vorhandene Information nicht optimal ausgenutzt.

Wir beschäftigen uns nun damit, sowohl zeitliche als auch örtliche Information für die Prädiktion auszunutzen und dadurch eine höhere Codiereffizienz zu erzielen. Um dies zu erreichen, führen wir eine zweistufige Prädiktion durch. Im ersten Schritt wird eine rein zeitliche Prädiktion ausgeführt. Das Ergebnis der zeitlichen Prädiktion wird anschließen örtlich verfeinert. Dazu wird ein Modell des Signals erzeugt, das zum einen zum zeitlichen prädizierten Signal passt, zum anderen aber auch den bereits decodierten Nachbargebieten. Dieses Modell enthält somit also Informationen aus zeitlicher und örtlicher Richtung und bildet einen besseren Prädiktor für das zu codierende Signal.