Orthogonale Regression
In der Statistik dient die orthogonale Regression (genauer: orthogonale lineare Regression) zur Berechnung einer Ausgleichsgeraden für eine endliche Menge metrisch skalierter Datenpaare <math>(x_i,y_i)</math> nach der Methode der kleinsten Quadrate. Wie in anderen Regressionsmodellen wird dabei die Summe der quadrierten Abstände der <math>(x_i,y_i)</math> von der Geraden minimiert. Im Unterschied zu anderen Formen der linearen Regression werden bei der orthogonalen Regression nicht die Abstände in <math>x</math>- bzw. <math>y</math>-Richtung verwendet, sondern die orthogonalen Abstände. Dieses Verfahren unterscheidet nicht zwischen einer unabhängigen und einer abhängigen Variablen. Damit können – anders als bei der linearen Regression – Anwendungen behandelt werden, bei denen beide Variablen <math>x</math> und <math>y</math> messfehlerbehaftet sind.
Die orthogonale Regression ist ein wichtiger Spezialfall der Deming-Regression. Sie wurde erstmals 1840 im Zusammenhang mit einem geodätischen Problem von Julius Weisbach angewendet<ref>{{#invoke:Vorlage:Literatur|f}}</ref><ref>{{#invoke:Vorlage:Literatur|f}}</ref>, 1878 von Robert James Adcock in die Statistik eingeführt<ref>{{#invoke:Vorlage:Literatur|f}}</ref> und in allgemeinerem Rahmen 1943 von W. E. Deming für technische und ökonomische Anwendungen bekannt gemacht.<ref>{{#invoke:Vorlage:Literatur|f}}</ref>
Rechenweg
Es wird eine Gerade
<math>y=\beta_0+\beta_1x</math>
gesucht, die die Summe der quadrierten Abstände der <math>(x_i,y_i)</math> von den zugehörigen Fußpunkten <math>(x_i^*,y_i^*)</math> auf der Geraden minimiert. Wegen <math>y_i^*=\beta_0+\beta_1x_i^*</math> berechnet man diese quadrierten Abstände zu <math>(y_i-\beta_0-\beta_1x_i^*)^2+(x_i-x_i^*)^2</math>, deren Summe minimiert werden soll:
<math>SSR = \sum_{i=1}^n\Big((y_i-\beta_0-\beta_1x^*_i)^2 + (x_i-x^*_i)^2\Big) \ \to\ \min_{\beta_0,\beta_1,x_i^*} SSR</math>
Für die weitere Rechnung werden die folgenden Hilfswerte benötigt:
- <math>\overline{x} = \frac{1}{n}\sum_{i=1}^n x_i</math> (arithmetisches Mittel der <math>x_i</math>)
- <math>\overline{y} = \frac{1}{n}\sum_{i=1}^n y_i</math> (arithmetisches Mittel der <math>y_i</math>)
- <math>s_x^2 = \tfrac{1}{n-1}\sum_{i=1}^n (x_i-\overline{x})^2</math> (Stichprobenvarianz der <math>x_i</math>)
- <math>s_y^2 = \tfrac{1}{n-1}\sum_{i=1}^n (y_i-\overline{y})^2</math> (Stichprobenvarianz der <math>y_i</math>)
- <math>s_{xy} = \tfrac{1}{n-1}\sum_{i=1}^n (x_i-\overline{x})(y_i-\overline{y})</math> (Stichprobenkovarianz der <math>(x_i,y_i)</math>)
Damit ergeben sich die Parameter zur Lösung des Minimierungsproblems:<ref>P. Glaister: Least squares revisited. The Mathematical Gazette. Vol. 85 (2001), S. 104–107.</ref><ref>G. Casella, R. L. Berger: Statistical Inference. 2. Auflage. Cengage Learning, Boston 2008, ISBN 978-0-495-39187-6.</ref><ref>J. Hedderich, Lothar Sachs: Angewandte Statistik. Methodensammlung mit R. 15. Auflage. Springer Berlin, Heidelberg 2015, ISBN 978-3-662-45690-3.</ref>
- <math>\beta_1 = \frac{s_y^2 - s_x^2 + \sqrt{(s_y^2 - s_x^2)^2 + 4s_{xy}^2}}{2s_{xy}}</math>
- <math>\beta_0 = \overline{y} - \beta_1\overline{x}</math>
Die <math>x</math>-Koordinaten der Fußpunkte berechnet man mit
- <math>x_i^* = x_i + \frac{\beta_1}{\beta_1^2 + 1}(y_i - \beta_0 - \beta_1x_i)</math>
Alternativer Rechenweg
Der geometrische Abstand <math>d_i</math> eines Messpunktes <math>P(x_i | y_i)</math> zu einer Ausgleichsgeraden
- <math>f(x) = mx + t</math>
lässt sich wegen <math>d_i : (y_i - ( mx_i + t )) = 1 : \sqrt{1+m^2}</math> wie folgt berechnen:
- <math>d_i^2 = \frac{ ( y_i - ( mx_i + t ))^2}{1 + m^2}</math>
Gesucht sind nun die Koeffizienten <math>m</math> und <math>t</math> mit der kleinsten Summe der Fehlerquadrate.
- <math>\min_{m,t}\sum_{i=1}^N d_i^2</math>
Berechnung der partiellen Ableitung nach t
Die Gleichung
- <math>\frac{\partial}{\partial t} \sum_{i=1}^N \frac{ ( y_i - ( mx_i + t ))^2}{1 + m^2} = 0</math>
ergibt als Lösung
- <math>t = \overline{y} - m\overline{x}</math>
Dabei wird als <math>\overline{x}</math> der Mittelwert der <math>x</math>-Koordinaten der Messpunkte bezeichnet. Analog dazu ist <math>\overline{y}</math> der Mittelwert der <math>y</math>-Koordinaten der Messpunkte. Diese Lösung hat auch zur Folge, dass der Punkt <math>P(\overline{x}|\overline{y})</math> stets auf der Ausgleichsgeraden liegt.
Berechnung der partiellen Ableitung nach m
Die Gleichung
- <math>\frac{\partial}{\partial \, m} \sum_{i=1}^N \frac{ ( y_i - ( mx_i + t ))^2}{1 + m^2} = 0</math>
ergibt folgende quadratische Gleichung:
- <math>m^2 S_{xy} + m ( S_{xx} - S_{yy}) - S_{xy} = 0</math>
Dabei sind
- <math>S_{xx} = \sum_{i=1}^N (x_i - \overline{x})^2\;</math> und <math>\;S_{yy} = \sum_{i=1}^N (y_i - \overline{y})^2</math>
die Quadratsummen der Messwerte von <math>X</math> und <math>Y</math> und
- <math>S_{xy} = \sum_{i=1}^N (x_i - \overline{x}) (y_i - \overline{y})</math>
die Produktsumme zwischen <math>X</math> und <math>Y</math>.
Auf Grund des Steigungsverhaltens dieser Parabel ergibt sich für das Minimum hier die eine Lösung:
- <math>m = \frac{S_{yy} - S_{xx} + \sqrt{(S_{xx} - S_{yy})^2 + 4 (S_{xy})^2}}{2 S_{xy}}</math>
Die Gleichung der geometrischen Ausgleichsgeraden lautet somit:
- <math> f(x) = m ( x - \overline{x} ) + \overline{y}</math>
Beispiel
| <math>x_i</math> | <math>y_i</math> | <math>x_i-\overline{x}</math> | <math>y_i-\overline{y}</math> | <math>(x_i-\overline{x})^2</math> | <math>(x_i-\overline{x})(y_i-\overline{y})</math> | <math>(y_i-\overline{y})^2</math> | |
|---|---|---|---|---|---|---|---|
| P1 | 1,0 | 2,0 | −2,3 | −2,1 | 5,29 | 4,83 | 4,41 |
| P2 | 2,0 | 3,5 | −1,3 | −0,6 | 1,69 | 0,78 | 0,36 |
| P3 | 4,0 | 5,0 | 0,7 | 0,9 | 0,49 | 0,63 | 0,81 |
| P4 | 4,5 | 4,5 | 1,2 | 0,4 | 1,44 | 0,48 | 0,16 |
| P5 | 5,0 | 5,5 | 1,7 | 1,4 | 2,89 | 2,38 | 1,96 |
| Summe | <math>16{,}5</math> | <math>20{,}5</math> | <math>0{,}0</math> | <math>0{,}0</math> | <math>S_{xx} = 11{,}8</math> | <math>S_{xy} = 9{,}1</math> | <math>S_{yy} = 7{,}7</math> |
| Mittelwert | <math>\overline{x} = 3{,}3</math> | <math>\overline{y} = 4{,}1</math> |
- <math>m = \frac{-4{,}1 + \sqrt{4{,}1^2 + 4\cdot 9{,}1^2}}{2\cdot 9{,}1}</math>
Es ergibt sich <math>m = 0{,}8</math> und die geometrische Ausgleichsgerade lautet daher wie folgt:
- <math> f(x) = 0{,}8 ( x - 3{,}3 ) + 4{,}1</math>
Einzelnachweise
<references />