Feedback

Multi-Task and Multi-Domain Learning for Semantic Segmentation and Depth Estimation : Offline and Online Methods

ORCID
0000-0001-7675-750X
Affiliation/Institute
Institut für Nachrichtentechnik
Klingner, Marvin Richard

For many applications such as highly automated driving, virtual reality, or robotic navigation, it is essential to correctly perceive the environment by readily available camera sensors. One component of such an environment perception is to determine which object classes are visible in the surrounding scene and in which direction they appear. For camera sensors, this task can be attributed to the pixel-wise classification of an image, i.e., semantic segmentation. Recent progress in deep neural network-based semantic segmentation has yielded a lot of success on well-controlled benchmark datasets. In practical applications, however, these models have to be combined with other perception tasks (e.g., 3D perception, optical flow, etc.), flexibly adapted to changing environments and demands (e.g., additional semantic classes), and validated during deployment.

In this thesis we propose various multi-task and multi-domain learning methods to improve semantic segmentation models, outlining a path from offline model development to online model operation. Specifically, this thesis is comprised of three main contributions. First, we introduce an offline multi-task learning method for semantic segmentation and monocular depth estimation model improvement, which mutually benefits both tasks. In addition, we use multi-task learning as a method to improve model robustness towards adversarial and noise input perturbations. Second, we introduce multi-domain learning methods for model adaptation to new domains and classes. The main assumption is that we have access to a pretrained semantic segmentation model but not to its original source domain training data. Under this assumption, we show how to extend the model by new semantic classes using knowledge distillation and how to adapt the model in online operation to continually changing data domains using source-free and continual unsupervised domain adaptation. Third, we present how multi-task learning can be used for model validation in online operation. Here, we show how the performance correlation of both tasks in a multi-task network can be exploited to predict semantic segmentation performance by evaluation of the depth estimation task with a LiDAR sensor. Afterwards, we present an alternative approach that detects failure-causing perturbations by measuring edge consistency between image input, depth output, and segmentation output.

We evaluate our methods on various benchmarks for urban street scenes, among them the commonly used GTA-5, SYNTHIA, Mapillary, BDD100k, KITTI, and Cityscapes datasets. For semantic segmentation and depth estimation, we report significant improvements in terms of performance and robustness compared to various baselines from literature. As we are among the first to present results for incremental learning of new classes and source-free unsupervised domain adaptation, we compare to various self-introduced baselines which we outperform. Finally, we are able to predict model performance with high fidelity in online operation and on a single-image basis. The effectiveness of our methods provides a promising basis for future research on semantic segmentation and depth estimation deployment in complex environments.

Für viele Anwendungen, wie z. B. das hochautomatisierte Fahren, die virtuelle Realität oder die Navigation von Robotern, ist die korrekte Wahrnehmung der Umgebung durch häufig verfügbare Kamerasensoren unerlässlich. Als Komponente einer solchen Umgebungswahrnehmung dient unter anderem die Bestimmung, welche Objektklassen wo in der Umgebung zu sehen sind. Bei Kamerasensoren kann diese Aufgabe auf die pixelweise Klassifizierung eines Bildes, d. h. auf die semantische Segmentierung, zurückgeführt werden. Jüngste Fortschritte auf dem Gebiet der semantischen Segmentierung mit tiefen neuronalen Netzwerken haben auf kontrollierbaren Benchmark-Datensätzen zu großen Erfolgen geführt. In praktischen Anwendungen müssen diese Modelle jedoch mit anderen Wahrnehmungsaufgaben (z. B. 3D-Wahrnehmung, optischer Fluss usw.) kombiniert, flexibel an sich ändernde Umgebungen und Anforderungen (z. B. zusätzliche semantische Klassen) angepasst und während des Einsatzes validiert werden.

In dieser Arbeit werden Multi-Aufgaben- und Multi-Domänen-Lernmethoden zur Verbesserung von semantischen Segmentierungsmodellen vorgestellt und somit ein Weg von der Offline-Modellentwicklung zum Online-Modellbetrieb aufgezeigt. Diese Arbeit besteht aus drei Hauptbeiträgen. Erstens stellen wir eine Multi-Aufgaben-Lernmethode vor, die beide Aufgaben eines Modells zur semantischen Segmentierung und zur monokularen Tiefenschätzung offline verbessert. Auch verbessern wir durch Multi-Aufgaben-Lernen die Modellrobustheit gegenüber adversarialen und zufälligen Störungen. Zweitens führen wir Multi-Domänen-Lernmethoden für die Modellanpassung an neue Domänen und Klassen ein. Die Hauptannahme ist, dass wir Zugang zu einem vortrainierten Segmentierungsmodell haben, aber nicht zu den Trainingsdaten der Ausgangsdomäne. Unter dieser Annahme zeigen wir, wie dieses Modell unter Nutzung von Wissensdestillation um neue semantische Klassen erweitert und im Online-Betrieb mit Hilfe von ausgangsdatensatzfreier und kontinuierlicher Domänenanpassung an sich ständig ändernde Datendomänen angepasst werden kann. Drittens zeigen wir, wie Multi-Aufgaben-Lernen zur Modellvalidierung im Online-Betrieb eingesetzt werden kann. Hier nutzen wir zunächst die hohe Performanz-Korrelation der beiden Aufgaben in einem Multi-Aufgaben-Netzwerk aus, indem wir die Performanz der semantischen Segmentierung durch Auswertung der Tiefenschätzung mit einem LiDAR-Sensor schätzen. Auch stellen wir einen alternativen Ansatz vor, der fehlerverursachende Störungen durch Messung der Kantenkonsistenz zwischen Eingabebild, Tiefenausgabe und Segmentierungsausgabe erkennt.

Wir evaluieren unsere Methoden auf Benchmarks für urbane Straßenszenen, darunter die häufig genutzten Datensätze GTA-5, SYNTHIA, Mapillary, BDD100k, KITTI und Cityscapes. Für die semantische Segmentierung und die Tiefenschätzung erzielen wir signifikante Verbesserungen bzgl. Performanz und Robustheit gegenüber Methoden aus der Literatur. Da wir zu den Pionieren des inkrementellen Lernens neuer Klassen und der ausgangsdatensatzfreien Domänenanpassung gehören, verbessern wir hier selbst entwickelte Vergleichsmethoden. Schließlich sagen wir die Modellperformanz mit hoher Genauigkeit im Online-Betrieb und auf Einzelbildbasis vorher. Die Effektivität unserer Methoden bietet eine vielversprechende Grundlage für zukünftige Forschung zum Einsatz von semantischer Segmentierung und Tiefenschätzung in komplexen Realumgebungen.

Cite

Citation style:
Could not load citation form.

Access Statistic

Total:
Downloads:
Abtractviews:
Last 12 Month:
Downloads:
Abtractviews:

Rights

Use and reproduction:
All rights reserved