Grundlagen der Statistik enthält Materialien verschiedener Vorlesungen und Kurse von H. Lohninger zur Statistik, Datenanalyse und Chemometrie .....mehr dazu.


Hauptkomponentenanalyse

Author: Hans Lohninger

Das Problem bei multivariaten Daten ist, dass sie nicht zweidimensional, also auf Papier oder dem Computerbildschirm, dargestellt werden können. Für mehr als zwei Dimensionen müssen wir die Daten auf eine Ebene projizieren. Diese Projektion ändert sich mit ihrer Richtung; oder mit anderen Worten gesagt, das projizierte Bild ändert sich, wenn die Datenpunkte im n-dimensionalen Raum gedreht werden. Es stellt sich nun die Frage, wie eine Rotation der Daten (oder der Achsen - was fast dasselbe ist) gefunden werden kann, die ein Maximum an Information im projizierten Bild darstellt.

Wenn wir davon ausgehen, dass aus den Daten nur dann Informationen gewonnen werden können, wenn die Streuung entlang einer Achse ein Maximum ist, müssen wir die Richtung der maximalen Streuung der Daten finden. Darüber hinaus sollten diese neuen Achsen wiederum orthogonal zueinander stehen. Um die neuen Achsen zu finden, muss zuerst die Richtung der maximalen Streuung gefunden werden, um sie als erste Achse einzusetzen. Danach suchen wir eine weitere Achse, die normal auf die erste steht, und lassen sie um die erste Achse rotieren, bis die Streuung entlang der neuen Achse ein Maximum annimmt. Dann fügen wir eine dritte Achse hinzu, wiederum orthogonal auf die anderen zwei und in Richtung der verbleibenden Maximalstreuung und so weiter. Dieser Vorgang wird so oft wiederholt, bis alle Dimensionen "aufgebraucht" sind.

Der oben beschriebene Prozess wird als Hauptkomponentenanalyse (engl. principal component analysis, PCA) bezeichnet und resultiert in einer Rotation des Koordinatensystems in einer Art und Weise, dass die Achsen ein Maximum an Streuung entlang ihrer Richtung aufweisen. Diese vereinfachte Darstellung kann mathematisch als so genanntes Eigenwertproblem aufgefasst werden. Die Eigenvektoren der Kovarianzmatrix bilden die Hauptkomponenten. Die korrespondierenden Eigenwerte weisen darauf hin, wie viel Information in den einzelnen Komponenten enthalten ist.

Das folgende interaktive Beispiel zeigt einen dreidimensionalen Datensatz und die korrespondierenden Hauptkomponenten. Beachten Sie, dass die Hauptkomponenten orthogonal zueinander sind und die Korrelation zwischen zwei beliebigen Komponenten null ist.




Last Update: 2011-03-19