imported>Thomas Dresler: Tippfehler korrigiert

2025-09-17T21:27:25Z

Tippfehler korrigiert

Neue Seite

'''Projection Pursuit''' (wörtlich ''Nachverfolgung der Projektion'') ist ein [[statistisches Verfahren]], eine Menge [[Dimension (Mathematik)|hochdimensionaler]] Daten so zu vereinfachen, dass möglichst „interessante“ Strukturen darin aufgedeckt werden. Dazu wird eine [[Hyperebene]] (z. B. eine Fläche) in den durch die Daten aufgespannten Raum gelegt, auf welche die Daten projiziert werden.

Der Projection Pursuit wurde zuerst 1974 von [[John W. Tukey]] und [[Jerome H. Friedman]] veröffentlicht<ref name="ft74">J. H. Friedman and J. W. Tukey (Sept. 1974): ''A Projection Pursuit Algorithm for Exploratory Data Analysis''. IEEE Transactions on Computers C-23 9: S. 881 ff. {{doi|10.1109/T-C.1974.224051}}. {{ISSN|0018-9340}}.</ref> und fand weitere Verbreitung durch die Arbeiten von Peter J. Huber (um 1985)<ref name="huber85">P.J. Huber (1985): ''Projection pursuit'', Annals of Statistics, 13, Nr. 2, S. 435 ff.</ref>.

Die Analyse [[multivariate Verfahren|multivariater Daten]] erfolgt in der Regel durch eine geeignete [[Abbildung (Mathematik)|Abbildung]] in niedrigere Dimensionen. Bekanntestes Beispiel ist das [[Streudiagramm]], bei dem jeweils zwei Dimensionen die Achsen eines [[Kartesische Koordinaten|Koordinatensystems]] bilden. Jede solche Abbildung verdeckt die Sichtbarkeit vorhandener Strukturen stets mehr oder weniger, kann sie aber niemals verstärken.<ref name="friedman87">J.H. Friedman (1987): ''Exploratory projection pursuit'', Journal of the American Statistical Assoc., 82, Nr. 397, S. 249–266.</ref>

Die Idee von Projection Pursuit ist auf die verschiedensten statistischen Probleme angewandt worden:

* Exploratory Projection Pursuit zur Aufdeckung von interessanten Strukturen in Daten
* Projection-Pursuit-Regression (kurz: ''PPR'')<ref>J.H. Friedman, W. Stuetzle (1981): ''Projection pursuit regression'', Journal of the American Statistical Association 76, S. 817–823</ref>
* Projection-Pursuit-Dichteschätzung<ref>J.H. Friedman, W. Stuetzle, A. Schröder (1984): ''Projection pursuit density estimation'', Journal of the American Statistical Association 79, S. 599–608</ref>
* Projection-Pursuit-Klassifikation<ref>J.H. Friedman, W. Stuetzle (1981): ''Projection pursuit classification'', unpublished manuscript</ref>
* Projection-Pursuit-Diskriminanzanalyse<ref>J. Polzehl (1995): ''Projection pursuit discriminant analysis'', Computational Statistics & Data Analysis 20, S. 141–157</ref>

== Exploratory Projection Pursuit ==

[[Datei:Ggobi-cube6-1.jpg|200px|mini|Abb. 1: Projektion von Datenpunkten auf den Ecken eines sechsdimensionalen Würfels (cube6) auf eine zweidimensionale [[Hyperebene]]. Die Daten sind approximativ [[Standardnormalverteilung|standardnormalverteilt]] in der Ebene.]]
[[Datei:Ggobi-cube6-optimized.jpg|200px|mini|Abb. 2: Mit dem "Central Mass" Index in GGobi optimierte Lösung des cube6 Datensatzes.]]
[[Datei:Ggobi-cube6-index.jpg|200px|mini|Abb. 3: Visualisierung der "Central Mass" Indexfunktion in GGobi.]]

Im Exploratory Projection Pursuit wird jeder [[Hyperebene]] eine Maßzahl (oder Index) zugeordnet, die angibt wie interessant die enthaltene Struktur ist. In der Arbeit von P. Diaconis und D. Freedman<ref>P. Diaconis, D. Freedman (1989): ''Asymptotics of graphical projection pursuit'', The Annals of Statistics 17, Nr. 1, S. 793–815.</ref> wurde gezeigt, dass die meisten Strukturen in den Hyperebenen [[Normalverteilung|normalverteilten Daten]] ähneln (siehe Abb. 1). Viele Maßzahlen messen daher die [[Distanzfunktion|Distanz]] der Struktur in der Hyperebene zu einer [[Normalverteilung]].

Danach werden automatisch der Reihe nach alle möglichen Projektionen der Daten auf eine [[Hyperebene]] durchgerechnet, die im Vergleich zu den Originaldaten um eine oder mehrere Dimensionen reduziert ist. Werden Datenpunkte als Teil einer interessanten Struktur identifiziert, werden diese aus der Analyse genommen. Das Verfahren wird mit dem reduzierten Datensatz wiederholt, bis keine Struktur mehr erkennbar ist.

=== Indizes ===

Die multivariaten Daten werden in der Regel mit <math>Z = S_X^{-1/2}(X-\bar{x})</math> transformiert, so dass die [[Mittelwert]]e der Variablen <math>Z</math> gleich Null sind und die [[Kovarianzmatrix|Varianz-Kovarianzmatrix]] <math>S_Z</math> die [[Einheitsmatrix]] ist. Wenn dann <math>\alpha</math> die Projektionsvektoren für die [[Hyperebene]] sind, <math>Y=\alpha^TZ</math> die in die Hyperebene projizierten Daten, <math>\Phi</math> die [[Dichtefunktion]] der [[Standardnormalverteilung]] (bzw. der entsprechenden Normalverteilung, wenn <math>Y=\alpha^TX</math> statt <math>Y=\alpha^TZ</math> benutzt wird) und <math>f</math> die Dichtefunktion der projizierten Daten in der Hyperebene, dann wurde unter anderem folgende Indizes, die dann maximiert werden, vorgeschlagen:

;Friedman-Tukey-Index<ref name="ft74" />
:Der Index <math>I_{FT}(\alpha) = \int f(y)^2 dy = E(f(y))</math> wird minimiert durch eine parabolische [[Dichtefunktion]], welche sehr ähnlich zur Dichtefunktion einer [[Standardnormalverteilung]] ist.
;Entropy-Index<ref name="huber85" />
:<math>I_{E}(\alpha) = \int f(y)\log(f(y)) dy = E(\log(f(y)))</math> ist die Entropie, die ebenfalls minimiert wird durch die [[Standardnormalverteilung]].
;Legendre-Index<ref name="friedman87" />, Hermite-Index<ref>P. Hall (1989): ''On polynomial-based projection indices for exploratory projection pursuit'', The Annals of Statistics 17, Nr. 2, S. 589–605.</ref> und Natural-Hermite-Index<ref>D. Cook, A. Buja, J. Cabrera (1993): '' Projection pursuit indices based on orthonormal function expansion'', Journal of Computational and Graphical Statistics 2, Nr. 3, S. 225–250</ref>
:<math>I_{L}(\alpha) = \int (f(y)-\Phi(y))^2 \frac{1}{2^{\dim(Y)}\Phi(y)} dy</math>,
:<math>I_{H}(\alpha) = \int (f(y)-\Phi(y))^2 dy</math> und
:<math>I_{NH}(\alpha) = \int (f(y)-\Phi(y))^2 \Phi(y) dy</math>.
:Alle drei Indizes messen den Abstand zur [[Standardnormalverteilung]], sie unterscheiden sich nur in der Art der Gewichtung der Differenz zwischen der Dichte der projizierten Daten und der Standardnormalverteilung.
;<math>\chi^2</math>-Index<ref>C. Posse (1995): ''Projection pursuit exploratory data analysis'', Computational Statistics and Data Analysis, 20, S. 669–687.</ref>
:partitioniert eine (zweidimensionale) Ebene in 48 Zellen und wendet dann einen <math>\chi^2</math>-Anpassungstest zum Vergleich der Beobachtungszahl in jeder Zelle mit der Zahl der Beobachtungen unter Annahme der [[Standardnormalverteilung]].

Im Prinzip kann jede [[Teststatistik]], die zu einem Test auf [[Normalverteilung]] gehört, als Index benutzt werden. Eine Maximierung führt dann zu den [[Hyperebene]]n, in denen die Daten nicht normalverteilt sind. Spezielle Versionen der Indizes <math>I_L</math>, <math>I_H</math> und <math>I_{NH}</math> werden maximiert durch bestimmten Strukturen, z. B. Zentrales Loch oder Zentrale Masse.

Die unbekannte [[Dichtefunktion]] <math>f(y)</math> der projizierten Daten wird entweder mittels eines [[Kerndichteschätzer]] oder durch eine [[orthonormale Funktionsexpansion]] geschätzt.

=== Verwandte Methoden ===

Als Spezialfälle des Exploratory Projection Pursuit kann man

* die [[Grand Tour (Statistik)|Grand Tour]] betrachten, bei der die Strukturen durch den Betrachter selbst in den Grafiken entdeckt werden, und
* die [[Hauptkomponentenanalyse]], bei der der Index durch <math>I_{\mathrm{PCA}}(\alpha) = \operatorname{Var}(\alpha^TX)</math> beschrieben wird.

== Projection Pursuit Regression ==

Im Regressionfall wird die unbekannte Regressionsfunktion <math>f(x)=\sum_k f_k(\alpha_k^Tx)</math> iterativ durch Regressionsfunktionen <math>f_k</math> auf den projizierten Daten dargestellt:

# <math>y_i^{(1)}=y_i</math> sind die beobachteten Regressionswerte
# Finde <math>\alpha_k</math> so, dass <math>\epsilon_k = \sum_i (y_i^{(k)}-f_k(\alpha_k^Tx_i))^2</math> minimal ist
# Setze <math>y_i^{(k+1)}=y_i^{(k)}-f_k(\alpha_k^Tx_i)</math>
# Iteriere Schritte 2–3 solange bis <math>\epsilon_k</math> kleiner als eine vorgegebene Schranke ist oder nicht mehr kleiner wird
# Verbessere die Approximation in dem für jedes <math>\alpha_k</math> nochmal <math>\sum_i \left(y_i-\sum_{l\neq k} f_l(\alpha_l^Tx_i) - f_k(\alpha_k^Tx_i)\right)^2</math> minimiert wird

== Projection Pursuit Dichteschätzung ==

Auch im Fall der Dichteschätzung wird ein iteratives Verfahren benutzt. Die unbekannte Dichtefunktion <math>f(x)</math> wird approximiert als Produkt von Dichtefunktionen der projizierten Daten:

:<math>f(x) = \Phi(x) \prod_k f_k(\alpha_k^Tx)</math>

mit <math>\Phi(x)</math> die [[Dichtefunktion]] der multivariaten [[Normalverteilung]] mit den Parametern <math>\bar{x}</math> und <math>S</math> geschätzt aus den Daten. Dann wird schrittweise die Normalverteilungsdichte korrigiert. Im Gegensatz zum Regressionsfall ist jedoch der [[Algorithmus]] wesentlich komplizierter, da hier keine Beobachtungen <math>y_i</math> zur Verfügung stehen, an die angepasst werden kann.

== Siehe auch ==
*[[Hauptkomponentenanalyse]]
*[[Grand Tour (Statistik)]]
*[[Clusteranalyse]]

== Weblinks ==
*[http://www-stat.stanford.edu/~jhf Webseite von Jerome H. Friedman]
*[https://davis.wpi.edu/~matt/courses/nland/cgi93.html N-Land: a Graphical Tool for Exploring N-Dimensional Data]
*[http://www.ggobi.org GGobi: freie Software zur statistischen Analyse; bietet Projection Pursuit.]
* In [[R (Programmiersprache)|R]] in der Bibliothek <span style="font-family:monospace;">stats</span> der Befehl <span style="font-family:monospace;">[https://stat.ethz.ch/R-manual/R-devel/library/stats/html/ppr.html ppr]</span>

== Einzelnachweise ==
<references />

[[Kategorie:Deskriptive Statistik]]
[[Kategorie:Regressionsanalyse]]
[[Kategorie:Multivariate Statistik]]

Projection Pursuit - Versionsgeschichte

imported>Thomas Dresler: Tippfehler korrigiert