Entwicklung chemometrischer Methoden für die Klassifikation von Bakterien mittels Mikro-Raman-Spektroskopie
In der vorliegenden Dissertation wurde ein datenanalytisches Auswertungssystem für die Mikro-Raman-spektroskopische Identifizierung von Bakterien in industriellen Reinräumen entwickelt. Das Auswertungssystem setzt sich zusammen aus Spektrenvorbehandlung, Klassifikation und Erkennung von Vorhersageausreißern. Auf der Basis eines hochdiversen Datensatzes, der aus 3642 Spektren und 29 Bakterienstämmen besteht, wurde zunächst die Leistungsfähigkeit verschiedener Methoden zur Spektrenvorbehandlung bewertet. Da man Bakterien in ihrer natürlichen Umgebung in verschiedenen Wachstumsphasen und Stoffwechselzuständen vorfindet, sind die Bakterien eines Stammes häufig sehr heterogen. „Gaussian Mixture” Diskriminanzanalyse (MDA) stellt eine ideale Klassifikationsmethode für diese Aufgabe dar, da mittels MDA auch heterogene und streuende Klassenstrukturen modelliert werden können. Die Nützlichkeit der MDA für die Differenzierung der Bakterienstämme wurde im Vergleich zu verschiedenen linearen und nichtlinearen Klassifikationsmethoden demonstriert. Zu den verwendeten Algorithmen zählen neben MDA „Partial Least Squares“ –Distriminanzanalyse (PLS-DA), Lineare Diskriminanzanalyse (LDA), Quadratische Diskriminanzanalyse (QDA), k-nächste Nachbarn Klassifizierer (kNN) und „Support Vector Machines“ (SVMs). Die Vorhersagegenauigkeit der MDA konnte durch deutlich gesteigert werden, indem MDA mit einer paarweisen Klassifikation kombiniert wurde. Dabei wurde das Multiklassenproblem in mehrere Zweiklassenprobleme aufgeteilt. Die Ergebnisse wurden anschließend durch eine „Major Vote“-Entscheidung kombiniert. Mit diesem paarweisen Ansatz konnten 86.6% der Spektren richtig klassifiziert werden. Neben der hohen Vorhersagegenaugkeit wurden in der Arbeit weitere Vorteile der paarweisen MDA für die gegebene Aufgabenstellung aufgezeigt. Dazu zählen der leichte Zugang zu a posteriori Wahrscheinlichkeiten, die zuverlässige Erkennung von Vorhersageausreißern und die Interpretierbarkeit des Modells.
In the present study a classification system was developed, which is suited to differentiate single bacterial cells using micro-Raman spectroscopic data. The classification system includes spectral preprocessing, classification and detection of prediction outliers. On the basis of a highly diverse dataset comprising 3642 spectra of 29 different strains of bacteria, various pre-processing techniques were evaluated. The differentiation of bacterial cells can be hampered by large intra-strain variability of the measured microorganisms due to fluctuating culture ages, nutrition conditions, and cultivation temperatures. Gaussian mixture discriminant analysis (MDA) is an effective classification approach for this task, as it is able to model inhomogeneous and scattering class structures. The utility of MDA for the differentiation of microorganisms by micro-Raman spectroscopy was demonstrated in comparison to various linear and nonlinear classification algorithms. The employed algorithms include partial least squares discriminant analysis (PLS-DA), linear discriminant analysis (LDA), quadratic discriminant analysis (QDA), k-nearest neighbor classifier (kNN) and support vector machines (SVMs). The prediction accuracy of MDA can be improved markedly by establishing multiple one-class-versus-one-class models and making predictions by a major vote decision over all pairwise classifications. Using this pairwise approach 86.6% of the bacterial cells could be identified correctly. In the case of MDA, the assessment of a posteriori probabilities allows a straightforward novelty detection procedure. Moreover, due to its cluster property, MDA can be employed to visualize the effect of varying cultivation parameters on the group-structure of the investigated dataset. The analysis demonstrates that MDA exhibits useful features for the differentiation of single bacteria by micro-Raman spectroscopy in terms of prediction accuracy, novelty detection, and interpretation of the model.
Preview
Cite
Access Statistic
Rights
Use and reproduction:
All rights reserved