Feedback

Advancing Radar-Based Hand Gesture Recognition : Autoencoder-Based Deep Learning Architectures for Enhanced Out-of-Distribution Detection and Semi-supervised Learning

ORCID
0009-0009-7697-6679
Affiliation/Institute
Institut für CMOS Design
Janjua, Muhammad Ghufran

Radar-based hand gesture recognition (HGR) has emerged as a promising alternative to conventional human-machine interfaces, offering robustness to environmental conditions and inherent privacy preservation. While deep learning (DL) has become the dominant approach for radar-based HGR, its widespread adoption faces two critical challenges:

(i) inadequate performance against out-of-distribution (OOD) gestures, which can compromise system reliability and safety, and

(ii) extensive dependency on carefully labeled datasets, the creation of which is time-consuming and resource-intensive.

This thesis addresses these challenges through novel autoencoder (AE)-based deep learning frameworks that advance radar-based gesture recognition.

Traditional classifiers often struggle with OOD detection, often making over-confident predictions for unknown inputs. AEs, which typically rely on reconstruction error as an OOD indicator, also face limitations when OOD inputs are unexpectedly well-reconstructed. To overcome these challenges, we first propose the Classification-based Autoencoder Network (CAN). CAN jointly optimizes an autoencoder and a classifier, structuring the latent space to improve OOD detection. This joint optimization of reconstruction loss and classification accuracy increases the separability of in-distribution (ID) data while pushing OOD inputs to distant regions in the latent space. During inference, CAN combines the Mahalanobis distance in the latent space that quantifies deviation from ID clusters, with the reconstruction error. CAN achieves a False Positive Rate (FPR) of 21%, a notable improvement over the baseline FPR of 58%.

The reliance of CAN on Mahalanobis distance introduces computational complexity and assumes a Gaussian distribution, without directly optimizing the structure of the latent space. This limitation motivated the development of our second contribution, the Joint Euclidean Distance and Autoencoder Network (JEDAN). JEDAN replaces the classification-driven approach of CAN with a Euclidean Distance-based Classification Layer (EDCL) that directly learns class centroids, eliminating the need for Mahalanobis calculations and Gaussian assumptions. JEDAN optimizes intra-class compactness and inter-class separation while incorporating both reconstruction error and proximity to class centroids. As a result, it achieves superior OOD detection, reducing the FPR to an impressive 5%, a significant reduction from the 58% baseline.

To overcome the key challenge of extensive data labeling, this thesis also introduces the Gaussian Mixture Variational Autoencoder (GMVAE). Traditional variational autoencoders (VAEs), constrained by unimodal Gaussian latent priors, struggle to effectively model diverse radar data, resulting in poorly structured latent spaces. GMVAE introduces a mixture of Gaussian distributions as its latent prior, allowing the latent space to capture distinct data clusters through multiple learnable Gaussian components. As a result, GMVAE performs well in unsupervised scenarios by identifying inherent groupings without relying on data labels, and in semi-supervised settings, it effectively leverages limited labeled data for classification. This significantly reduces the need for exhaustive annotation, achieving 98.12% accuracy with only 50% labeled data in semi-supervised learning and a strong 83.34% accuracy in a fully unsupervised setting.

Collectively, the methods proposed in this thesis address key challenges in radar-based HGR. They improve system reliability by enhancing OOD detection and reducing the reliance on labeled datasets. These innovations pave the way for robust and scalable radar-based HGR systems suitable for a wide range of real-world applications.

Radar-basierte Handgestenerkennung (HGR) hat sich als vielversprechende Alterna­tive zu herkömmlichen Mensch-Maschine-Schnittstellen etabliert, da sie sowohl eine hohe Robustheit gegenüber Umweltbedingungen als auch einen inhärenten Schutz der Privatsphäre bietet. Obwohl deep learning (DL) die dominierende Methode für radarb­a­sierte HGR ist, stehen ihrer breiten Anwendung zwei wesentliche Herausforderungen im Weg: (i) eine unzureichende Leistung bei der Erkennung von out-of-distribution (OOD)-Gesten, was die Zuverlässigkeit und Sicherheit des Systems gefährden kann, und (ii) eine starke Abhängigkeit von sorgfältig annotierten Datensätzen, deren Erstellung zeit- und ressourcenintensiv ist. Diese Dissertation präsentiert eine umfassende Lösung dieser Herausforderungen durch neuartige, autoencoders (AEs)-basierte DL-Frameworks, die die radarb­asierte Gestenerkennung entscheidend voranbringen. 

Traditionelle Klassifikationsalgorithmen haben oft Schwierigkeiten bei der Erkennung von OOD-Daten und neigen dazu, für unbekannte Eingaben übermäßig selbstsichere Vorhersagen zu treffen. Auch AEs, die üblicherweise den Rekonstruktionsfehler als Indikator für OOD-Daten nutzen, stoßen an ihre Grenzen, wenn OOD-Eingaben unerwartet gut rekonstruiert werden. Um diesen Einschränkungen zu begegnen, wird zunächst das Classification-based Autoencoder Network (CAN) vorgestellt. CAN optimiert gleichzeitig einen AE und einen Klassifikator und strukturiert so den latenten Raum, um die Erkennung von OOD-Daten zu verbessern. Durch die gemeinsame Optimierung von Rekonstruktionsverlust und Klassifikationsgenauigkeit wird die Trennbarkeit von in-distribution (ID)-Daten erhöht, während OOD-Eingaben in entferntere Bereiche des latenten Raums verschoben werden. Während der Modelinferenz kombiniert CAN die Mahalanobis-Distanz im latenten Raum, die Abweichungen von ID-Clustern quantifiziert, mit dem Rekonstruktionsfehler und erreicht dabei eine False Positive Rate (FPR) von 21%, verglichen mit einer Basislinie von 58%.

Die Abhängigkeit von CAN von der Mahalanobis-Distanz bringt eine hohe rechnerische Komplexität mit sich und setzt eine Annahme über eine Gauss’sche Verteilung voraus, ohne die Struktur des latenten Raums direkt zu optimieren. Diese Einschränkung führte zur Entwicklung unseres zweiten Ansatzes, des Joint Euclidean Distance and Autoencoder Network (JEDAN). JEDAN ersetzt den klassifikationsgetriebenen Ansatz von CAN durch eine auf der euklidischen Distanz basierende Schicht, die Klassenzentren direkt lernt und dadurch die Berechnung der Mahalanobis-Distanz sowie Annahmen über eine Gauss’sche Verteilung überflüssig macht. Durch die Optimierung der intra-klassen Kompaktheit und der inter-klassen Trennung sowie durch die Nutzung des Rekonstruktionsfehlers und der Nähe zu Klassenzentren erreicht JEDAN eine überlegene OOD-Erkennung und reduziert die FPR auf geringe 5%, was eine robuste und effiziente Lösung für OOD-Probleme darstellt.

Um dem zentralen Problem der starken Abhängigkeit von umfangreichen Datenannotationen zu begegnen, stellt diese Arbeit außerdem den Gaussian Mixture Variational Autoencoder (GMVAE) vor. Konventionelle variational autoencoders (VAEs), die auf unimodalen Gauss’schen latenten Priors basieren, können die Vielfalt radarb­asierter Daten nicht effektiv modellieren, was zu schlecht strukturierten latenten Räumen führt. GMVAE verwendet innovativ eine Mischung aus Gauss’schen Verteilungen als latenten Prior, wodurch der latente Raum verschiedene Datencluster mit mehreren lernbaren Gauss’schen Komponenten darstellen kann. Dies ermöglicht GMVAE, in unüberwachten Szenarien eigenständig inhärente Gruppierungen zu identifizieren, und in semi-überwachten Szenarien begrenzte annotierte Daten effizient für Klassifikationen zu nutzen. Dadurch wird die Abhängigkeit von vollständig annotierten Daten erheblich gesenkt, wobei 98,12% Genauigkeit mit nur 50% annotierten Daten im teilüberwachten Lernen und starke 83,34% Genauigkeit in vollständig unüberwachten Szenarien erzielt werden.

Zusammenfassend adressieren die in dieser Dissertation vorgeschlagenen Methoden wesentliche Herausforderungen der radarbasierten HGR. Sie verbessern die Zuverlässigkeit des Systems durch eine effizientere Erkennung unbekannter Gesten und reduzieren die Abhängigkeit von annotierten Datensätzen erheblich, was eine effizientere Implementierung ermöglicht. Diese Innovationen ebnen den Weg für skalierbare und robuste radarb­asierte HGR-Systeme, die für eine Vielzahl von realen Anwendungen geeignet sind.

Rights

Use and reproduction:

Access Statistic

Total:
Downloads:
Abtractviews:
Last 12 Month:
Downloads:
Abtractviews:

Cite

Citation style:
Could not load citation form.