Empirical Processes of Principle Scores
Principle Component Analysis (PCA) is a key technique in the area of high-dimensional data science. While the corresponding eigenvalues and eigenvectors constitute the main structural ingredients, the (sample) principle scores essentially encode all stochastic properties of the underlying signal. Their probabilistic properties are thus key for many statistical procedures, and assessing their distribution is a vital question. The goal of this thesisis to provide results on the asymptotic behavior of the corresponding empirical process.
Our main result is a central limit theorem, subject only to easily verifiable algebraic and probabilistic conditions. The latter correspond to simple moment and weak dependence assumptions, allowing for a huge class of stationary processes as signals. The algebraic conditions amount to a relative gap condition for the eigenvalues, which is optimal in a certain sense. The theoretical results and concepts are validated for relevant distributions by constructing a multiplier bootstrap and a corresponding simulation study.
Die Hauptkomponentenanalyse ist im Bereich Data Science eine der wichtigsten Analysetechniken. Maßgeblich sind in diesem Zusammenhang Eigenwerte und Eigenvektoren des zugehörigen Kovarianz Operators und somit auch die (empirischen) Hauptkomponenten. Ihre wahrscheinlichkeitstheoretischen Eigenschaften sind von hoher Bedeutung, weshalb die Frage nach ihrer Verteilung ein zentrales Thema darstellt.
In dieser Arbeit werden Ergebnisse zum asymptotischen Verhalten des zugehörigen empirischen Prozesses herausgearbeitet. Das Hauptergebnis ist ein zentraler Grenzwertsatz, gültig unter leicht verifizierbaren algebraischen und stochastischen Annahmen. Dessen Verifikation ist komplex und bedarf einer Reihe von vorbereitenden Resultaten. Zentral hier ist der asymptotische ”Bias” der betrachteten Größe, welcher im Rahmen eines weiteren Hauptresultates ermittelt wird. Es wird gezeigt, dass der empirische Prozess der geschätzten Hauptkomponenten in drei Teile zerlegt werden kann: den genannten ”Bias”, einen gewöhnlichen empirischen sowie einen abstrakten Prozess. Der Beweis der Konvergenz von letzterem in o_P(n^1/2) stellt hier den anspruchsvolleren Teil dar und bedarf sowohl Resultate aus der Pertubationstheorie sowie auch Chaining-, Konzentrationsargumente und m-Approximation. Die theoretischen Resultate werden für relevante Verteilungen im Rahmen eines Multiplier Bootstraps und einer zugehörigen Simulationsstudie verifiziert.