Summe der Abweichungsquadrate
In der Statistik ist die Summe der Abweichungsquadrate (SAQ bzw. {{#invoke:Vorlage:lang|full|CODE=en|SCRIPTING=Latn|SERVICE=englisch}} sum of squared deviations, kurz SSD), auch Abweichungsquadratsumme, kurz Summe der Quadrate oder Quadratsumme (SQ oder Q bzw. {{#invoke:Vorlage:lang|full|CODE=en|SCRIPTING=Latn|SERVICE=englisch}} sum of squares, kurz SS) genannt, die Summe der quadratischen Abweichungen der Messwerte von ihrem arithmetischen Mittel.
Die Summe der Abweichungsquadrate ist ein Maß für die Stärke der Schwankungen der Messwerte um deren Mittelwert und damit ein Maß für die „Variation“ eines Merkmals <math>X</math> (Streuungsmaß). Eine Verallgemeinerung der Summe der Abweichungsquadrate stellt die Summe der Abweichungsprodukte (SAP bzw. {{#invoke:Vorlage:lang|full|CODE=en|SCRIPTING=Latn|SERVICE=englisch}} sum of products of deviations, kurz SPD), auch Abweichungsproduktsumme, kurz Summe der Produkte (SP bzw. {{#invoke:Vorlage:lang|full|CODE=en|SCRIPTING=Latn|SERVICE=englisch}} sum of products, kurz SP) oder Produktsumme (selten auch Summe der Kreuzprodukte bzw. Kreuzproduktsumme) dar und ist ein Maß für den Grad der gemeinsamen Variation (der „Kovariation“) zweier Merkmale <math>X</math> und <math>Y</math>.<ref>Das gemeinsame Variieren zweier oder mehrerer Merkmale bezeichnet man als „Ko-Variation“.</ref> Die Summe der Abweichungsprodukte ist die Summe der Produkte der mittelwertbereinigten Messwertpaare.
Das nicht-standardisierte „mittlere Abweichungsquadrat“ von Messwerten heißt empirische Varianz, das nicht-standardisierte „mittlere Abweichungsprodukt“ von Messwertpaaren empirische Kovarianz. Die Quadratsumme ist also der Zähler der empirischen Varianz, und die Produktsumme ist der Zähler der empirischen Kovarianz. Die Quadratsumme und die Produktsumme werden vielfältig angewandt, z. B. beim Bestimmtheitsmaß oder beim Bravais-Pearson-Korrelationskoeffizienten. Der Verschiebungssatz liefert wichtige Rechenregeln für die Quadratsumme und die Produktsumme. In der Statistik wichtige Quadratsummen sind die totale Quadratsumme und die erklärte Quadratsumme. Eine weitere in der Statistik wichtige Quadratsumme ist die Residuenquadratsumme, die bei der Methode der kleinsten Quadrate eine große Rolle spielt.
Definition
Die Abweichungsquadratsumme ergibt sich als Summe der quadratischen Abweichungen der Messwerte von ihrem arithmetischen Mittelwert <math>(x_i - \overline x)^2</math>
- <math>S_{xx}:=SQ_{x}(\overline{x}):=(x_1 - \overline{x})^2+ (x_2 - \overline{x})^2+ \ldots + (x_n - \overline x)^2=\sum\limits_{i=1}^n (x_i - \overline x)^2</math>.
Alternativ lässt sich die Abweichungsquadratsumme durch den Verschiebungssatz von Steiner wie folgt angeben:
- <math>SQ_x = \left( \sum_{i=1}^n x_i^2 \right) - \frac{1}{n}\left(\sum_{i=1}^n x_i\right)^2</math>.
Um den Unterschied zur Produktsumme deutlicher herauszustellen, wird sie auch als <math>S_{xx}</math> notiert. Für Anwendungen, besonders in der Varianzanalyse, wird die Notation der Abweichungsquadratsumme mit <math>SQ</math> bevorzugt.
Falls das Merkmal keinerlei Variabilität aufweist, d. h. <math>x_1=x_2=\ldots=x_n=\overline x</math>, dann ergibt sich eine Quadratsumme (und eine Varianz) von Null. In die Berechnung der Summe gehen insgesamt <math>n</math> Abweichungsquadrate ein, sodass die Abweichungsquadratsumme umso größer ist, je größer die Stichprobengröße ist.
Mittleres Abweichungsquadrat
Um ein von der Stichprobengröße unabhängiges Maß für die Variation der Merkmalswerte zu erhalten, muss eine Normierung vorgenommen werden. Die Normierung geschieht dadurch, dass man die Abweichungsquadratsumme durch die Anzahl der Freiheitsgrade <math>FG</math> dividiert:<ref>Werner Timischl: Angewandte Statistik. Eine Einführung für Biologen und Mediziner. 2013, 3. Auflage, S. 109.</ref>
- <math>MQ_x = \frac{SQ_x}{FG} = \frac{\sum\nolimits_{i=1}^n\left(x_i-\overline x\right)^2}{n-1} = s_x^2</math>.<ref>Lothar Sachs: Statistische Auswertungsmethoden, S. 400.</ref>
Das so gewonnene Streuungsmaß stellt eine Art „mittleres“ bzw. „durchschnittliches“ Abweichungsquadrat dar ({{#invoke:Vorlage:lang|full|CODE=en|SCRIPTING=Latn|SERVICE=englisch}} mean square, kurz: MS), das mit <math>MQ</math> bzw. <math>DQ</math> (Mittlere Quadrate der Abweichungen bzw. Durchschnittliche Quadrate der Abweichungen) abgekürzt wird. Das „mittlere Abweichungsquadrat“ (oft fälschlicherweise „mittlere Quadratsumme“ genannt) ist die empirische Varianz, wird aber in der Varianzanalyse nicht als Varianz, sondern als mittlere Abweichungsquadrat bezeichnet. Die Abweichungsquadratsumme ist also die <math>(n-1)</math>-fache empirische Varianz <math>s_x^2</math> der Messwerte.<ref>Ludwig von Auer: Ökonometrie. Eine Einführung. Springer, ISBN 978-3-642-40209-8, 6. durchges. u. aktualisierte Aufl. 2013, S. 46.</ref> Das mittlere Quadrat der Residuen heißt „mittleres Residuenquadrat“.<ref>Werner Timischl: Angewandte Statistik. Eine Einführung für Biologen und Mediziner. 2013, 3. Auflage, S. 335.</ref>
Verallgemeinerung
Die Abweichungsproduktsumme bzw. die Summe der Abweichungsprodukte<ref>Lothar Sachs, Jürgen Hedderich: Angewandte Statistik: Methodensammlung mit R. 8., überarb. und erg. Auflage. Springer Spektrum, Berlin/Heidelberg 2018, ISBN 978-3-662-56657-2, S. 404</ref> ist eine Verallgemeinerung der Abweichungsquadratsumme und ist definiert als Summe der Produkte der mittelwertbereinigten Messwertpaare:
- <math>S_{xy}:=SP_{xy}:=(x_1 - \overline{x})(y_1 - \overline{y})+(x_2 - \overline{x})(y_2 - \overline{y})+ \ldots + (x_n - \overline x)(y_n - \overline{y})=\sum\limits_{i=1}^n(x_i-\overline x)(y_i-\overline y)</math> .
Insbesondere gilt <math>SQ_{x} = SP_{xx}</math>. Die empirische Kovarianz <math>s_{xy}</math> ist die Summe der Abweichungsprodukte der Messwerte von <math>X</math> und <math>Y</math> dividiert durch <math>n-1</math>:
- <math> s_{xy} = \frac {1}{n-1}SP_{xy}</math>.
Die empirische Kovarianz kann somit als „mittleres“ bzw. „durchschnittliches“ Abweichungsprodukt interpretiert werden.
Spezielle Quadratsummen
Residuenquadratsumme
Ausgehend von den Residuen, die den vertikalen Abstand zwischen Beobachtungspunkt und der geschätzten Regressionsgerade messen, lässt sich eine Residuenquadratsumme durch die Summe der Abweichungsquadrate der Residuen wie folgt definieren
- <math>SQR := SQ_{\text{Rest}} := \sum_{i=1}^n \hat \varepsilon_i^2 =\sum_{i=1}^n (y_i - \hat y_i)^2</math>.
Hypothesenquadratsumme
Die Hypothesenquadratsumme ({{#invoke:Vorlage:lang|full|CODE=en|SCRIPTING=Latn|SERVICE=englisch}} sum of squares due to hypothesis) tritt beim Testen der allgemeinen linearen Hypothese auf. Sei <math> \boldsymbol R</math> eine <math>q \times (k+1)</math> Restriktionsmatrix, mit <math>q \leq (k+1)</math> Sei weiterhin angenommen, dass die <math>q </math> Restriktionen an den <math>(k+1) \times 1</math> Parametervektor <math>\boldsymbol \beta</math> ausgedrückt werden können als <math> H_0: \boldsymbol R\boldsymbol\beta= \boldsymbol r </math>, wobei <math>\boldsymbol r</math> ein <math>q \times 1</math>-Vektor bestehend aus bekannten Konstanten darstellt. Die Hypothesenquadratsumme ist dann gegeben durch<ref>Jeffrey Marc Wooldridge: Introductory econometrics: A modern approach. 4. Auflage. Nelson Education, 2015, S. 810</ref>
- <math>SQH =( \boldsymbol R\boldsymbol\hat{\beta}-\boldsymbol r)^{\top}(\boldsymbol R(\mathbf X^{\top}\mathbf X)^{-1}\boldsymbol R^{\top})^{-1}( \boldsymbol R\boldsymbol\hat{\beta}-\boldsymbol r)</math>.
Anmerkungen
<references />