Partieller Korrelationskoeffizient

Datei:Part korrelation.PNG

Zwischen <math>X</math> und <math>Y</math> besteht eine merkliche Korrelation. Betrachtet man die beiden rechten Punktwolken, so erkennt man, dass <math>X</math> und <math>Y</math> jeweils stark mit <math>U</math> korrelieren. Die beobachtete Korrelation zwischen <math>X</math> und <math>Y</math> basiert nun fast ausschließlich auf diesem Effekt.

Der partielle Korrelationskoeffizient kontrolliert den Einfluss einer oder mehrerer Störfaktoren.

Definition

Eine Korrelation zwischen zwei statistischen Variablen (oder Merkmalen) <math>X</math> und <math>Y</math> kann unter Umständen auf den Einfluss, die eine dritte Variable <math>U</math> (ein Störfaktor) auf beide Variablen hat, zurückgehen. Um die Korrelation zwischen <math>X</math> und <math>Y</math> zu messen, die verbleibt, wenn der Einfluss von <math>U</math> eliminiert ist, gibt es das Konzept der partiellen Korrelation<ref>{{#invoke:Vorlage:Literatur|f}}</ref><ref>{{#invoke:Vorlage:Literatur|f}}</ref><ref>{{#invoke:Vorlage:Literatur|f}}</ref> (auch Partialkorrelation genannt).

Theoretischer partieller Korrelationskoeffizient

Für drei Zufallsvariablen <math>X, Y</math> und <math>U</math> mit gemeinsamer Wahrscheinlichkeitsverteilung seien <math>\varrho_{XY}</math>, <math>\varrho_{XU}</math> und <math>\varrho_{YU }</math> die paarweisen theoretischen Korrelationskoeffizienten. Dann ist

<math>

\varrho_{(X,Y)/U} := \frac{\varrho_{XY} - \varrho_{XU} \cdot \varrho_{YU}} { \sqrt{(1-\varrho_{XU}^2)(1-\varrho_{YU}^2)} } </math> die theoretische partielle Korrelation der Zufallsvariablen <math>X</math> und <math>Y</math> bzgl. der Zufallsvariablen <math>U</math> (oder mit Elimination des Effekts der Zufallsvariablen <math>U</math>). Der Koeffizient <math>\varrho_{(X,Y)/U}</math> heißt auch (theoretischer) partieller Korrelationskoeffizient. Eine häufige Notation ist <math>\varrho_{X,Y.U}</math>.

Empirischer partieller Korrelationskoeffizient

Für beobachtete Werte <math>(x_i, y_i, u_i)</math> für <math>i=1,\dots,n</math> von drei Variablen <math>X, Y</math> und <math>U</math> seien <math>r_{XY}</math>, <math>r_{XU}</math> und <math>r_{YU }</math> die paarweisen empirischen Korrelationskoeffizienten. Dann ist

<math>

r_{(X,Y)/U} := \frac{r_{XY} - r_{XU} \cdot r_{YU}} { \sqrt{(1-r_{XU}^2)(1-r_{YU}^2)} } </math> die empirische partielle Korrelation der Variablen <math>X</math> und <math>Y</math> bzgl. der Variablen <math>U</math> (oder mit Elimination des Effekts der Variablen <math>U</math>). Der Koeffizient <math>\varrho_{(X,Y)/U}</math> heißt auch (empirischer) partieller Korrelationskoeffizient. Eine häufige Notation ist <math>r_{X,Y.U}</math>.

In Zusammenhängen, bei denen klar ist, ob ein theoretischer oder ein empirischer Koeffizient gemeint ist, wird einfach von dem partiellen Korrelationskoeffizienten gesprochen.

Partieller Korrelationskoeffizient höherer Ordnung

Beim partielle Korrelationskoeffizient wird der Einfluss von mehr als einer Störvariable herausgerechnet.

Eigenschaften

Ein partieller Korrelationskoeffizient hat Werte im Intervall <math>[-1,1]</math>.
Im Fall <math>\varrho_{XU}=\varrho_{YU}=0</math> gilt <math>\varrho_{(X,Y)/U}=\varrho_{XY}</math>.
Im Fall <math>r_{XU}=r_{YU}=0</math> gilt <math>r_{(X,Y)/U}=r_{XY}</math>.
Der partielle Korrelationskoeffizient stimmt unter bestimmten Bedingungen (jedoch nicht im Allgemeinen) mit der bedingten Korrelation überein<ref>{{#invoke:Vorlage:Literatur|f}} </ref>.

Theoretischer Hintergrund

Für die Zufallsvariablen <math>X</math>, <math>Y</math> und <math>U</math> können die linearen Regressionen von <math>X</math> auf <math>U</math>,

<math> \hat X = \alpha_X + \beta_X U\;, </math>

und von <math>Y</math> auf <math>U</math>,

<math> \hat Y = \alpha_Y + \beta_Y U \;,</math>

gebildet werden. Die zugehörigen Residualvariablen (Regressionsreste)

enthalten diejenigen Anteile der Variablen <math>X</math> und <math>Y</math>, die nicht durch einen linearen Zusammenhang mit <math> U </math> erklärt werden können. Es gilt dann

<math> \varrho_{VW} = \varrho_{(X,Y)/U}\;. </math>

Diese Darstellung zeigt:

Der partielle Korrelationskoeffizient ist ein gewöhnlicher Korrelationskoeffizient der Residualvariablen <math>V</math> und <math>W</math> und hat damit die Eigenschaften eines gewöhnlichen Korrelationskoeffizienten.
Die Ausschaltung des Einflusses der Variablen <math>U</math> erfolgt durch lineare Regressionen, so dass nichtlineare Einflüsse von <math>U</math> nur teilweise erfasst werden oder unentdeckt bleiben.
Eine Verallgemeinerung des Konzeptes auf mehrere Einflussfaktoren <math>U_1,\dots,U_m</math> ist möglich, indem die linearen Einfachregressionen auf die Variable <math>U</math> durch multiple lineare Regressionen auf mehrere Variablen <math>U_1,\dots,U_m</math> ersetzt werden und dann die Korrelationen der resultierenden Residualvariablen betrachtet werden.

Für beobachtete Werte <math>(x_i, y_i, u_i)</math>, <math>i=1,\dots,n</math>, seien

die geschätzten Werte aus linearen Regressionen von <math>X</math> auf <math>U</math> bzw. von <math>Y</math> auf <math>U</math> nach der Methode der kleinsten Quadrate. Für die empirische Korrelation der Regressionsreste

gilt dann

Inferenzstatistischer Zusammenhang

Im inferenzstatistischen Kontext repräsentiert die gemeinsame Wahrscheinlichkeitsverteilung von <math>(X,Y,U)</math> die Verteilung der drei Merkmale in der Grundgesamtheit und <math>\varrho_{(X,Y)/U}</math> beschreibt die (unbekannte) partielle Korrelation in der Grundgesamtheit.

Die beobachteten Werte <math>(x_i, y_i, u_i)</math> für <math> i=1,\dots,n</math> werden als realisierte Werte von stochastisch unabhängigen und identisch verteilten Zufallsvektoren <math>(X_i, Y_i, U_i)</math> für <math>i=1,\dots,n</math> aufgefasst, die jeweils die Wahrscheinlichkeitsverteilung von <math>(X,Y,U)</math> besitzen.

In diesem Zusammenhang sind die aus den beobachteten Werten berechneten empirischen Korrelationskoeffizienten <math>r_{XY}</math>, <math>r_{XU}</math> und <math>r_{YU}</math> Schätzwerte für die Korrelationskoeffizienten <math>\varrho_{XY}</math>, <math>\varrho_{XU}</math> und <math>\varrho_{YU}</math> und der empirische partielle Korrelationskoeffizient <math>r_{(X,Y)/U} </math> ist ein Schätzwert für den unbekannten Grundgesamtheitsparamter <math>\varrho_{(X,Y)/U}</math>.

Beispiel: Schuhgröße und Wortschatz bei Kindern

Ein klassisches Beispiel für die Nützlichkeit des Partiellen Korrelationskoeffizienten, ist der Zusammenhang zwischen der Schuhgröße und der Wortschatzgröße bei Kindern.

Ausgangslage

In einer Untersuchung in einem Kindergarten wird bei allen Kindern die Schuhgröße gemessen und gleichzeitig die Größe ihres Wortschatzes (die Anzahl der Wörter, die sie aktiv beherrschen) ermittelt. Das Ergebnis der statistischen Auswertung zeigt eine deutliche positive Korrelation: Kinder mit größeren Schuhen verfügen tendenziell über einen größeren Wortschatz als Kinder mit kleinen Schuhen.

Analyse der Drittvariable

Bei einer genaueren Betrachtung stellt sich jedoch heraus, dass dieser Zusammenhang auf die Drittvariable Alter zurückzuführen ist:

Alter und Schuhgröße: Ältere Kinder sind physisch weiter entwickelt und haben daher im Durchschnitt größere Füße als jüngere Kinder.

Alter und Wortschatz: Ältere Kinder hatten mehr Zeit zum Lernen und weisen daher natürlicherweise einen größeren Wortschatz auf.

Anwendung der Partialkorrelation

Berechnet man nun die Partialkorrelation zwischen der Wortschatzgröße und der Schuhgröße unter Kontrolle der Variable Alter, so verschwindet der ursprüngliche Zusammenhang nahezu vollständig.

Das bedeutet: Vergleicht man nur Kinder, die exakt gleich alt sind (z. B. eine Gruppe von ausschließlich 5-Jährigen), so lässt sich kein statistischer Beleg mehr dafür finden, dass Kinder mit größeren Füßen auch über einen größeren Wortschatz verfügen. Innerhalb einer homogenen Altersgruppe ist die Schuhgröße kein Prädiktor für die Sprachkompetenz.

Die Partialkorrelation filtert hierbei den Einfluss der Variable z (Alter) aus der Beziehung zwischen x (Schuhgröße) und y (Wortschatz) heraus.

Da das Alter sowohl mit der Schuhgröße als auch mit dem Wortschatz stark korreliert, sinkt der Wert der Partialkorrelation im Vergleich zur einfachen Korrelation gegen Null.

Zeitreihen

Bei Zeitreihen wird die partielle Autokorrelationsfunktion <math>\varphi</math> bei Verzögerung <math>h</math> definiert als

<math>\varphi(h)= r_{X_0X_h \cdot \{X_1,\,\dots\,,X_{h-1} \}}</math>

Erweiterung

Der partielle Korrelationskoeffizient kann auch für Rangkorrelationskoeffizienten berechnet werden<ref>Hipel, K., McLeod, A. (1994). Time Series Modelling of Water Resources and Environmental Systems. Niederlande: Elsevier Science. https://books.google.de/books?id=t1zG8OUbgdgC&pg=PA883 Seite 883</ref>.

Einzelnachweise