Zum Inhalt springen

Orthogonale Regression

aus Wikipedia, der freien Enzyklopädie
Datei:Total least squares.svg
Orthogonale Regression. Die roten Linien stellen die Abstände der Messwertpaare von der Ausgleichsgeraden dar.

In der Statistik dient die orthogonale Regression (genauer: orthogonale lineare Regression) zur Berechnung einer Ausgleichsgeraden für eine endliche Menge metrisch skalierter Datenpaare <math>(x_i,y_i)</math> nach der Methode der kleinsten Quadrate. Wie in anderen Regressionsmodellen wird dabei die Summe der quadrierten Abstände der <math>(x_i,y_i)</math> von der Geraden minimiert. Im Unterschied zu anderen Formen der linearen Regression werden bei der orthogonalen Regression nicht die Abstände in <math>x</math>- bzw. <math>y</math>-Richtung verwendet, sondern die orthogonalen Abstände. Dieses Verfahren unterscheidet nicht zwischen einer unabhängigen und einer abhängigen Variablen. Damit können – anders als bei der linearen Regression – Anwendungen behandelt werden, bei denen beide Variablen <math>x</math> und <math>y</math> messfehlerbehaftet sind.

Die orthogonale Regression ist ein wichtiger Spezialfall der Deming-Regression. Sie wurde erstmals 1840 im Zusammenhang mit einem geodätischen Problem von Julius Weisbach angewendet<ref>{{#invoke:Vorlage:Literatur|f}}</ref><ref>{{#invoke:Vorlage:Literatur|f}}</ref>, 1878 von Robert James Adcock in die Statistik eingeführt<ref>{{#invoke:Vorlage:Literatur|f}}</ref> und in allgemeinerem Rahmen 1943 von W. E. Deming für technische und ökonomische Anwendungen bekannt gemacht.<ref>{{#invoke:Vorlage:Literatur|f}}</ref>

Rechenweg

Es wird eine Gerade

<math>y=\beta_0+\beta_1x</math>

gesucht, die die Summe der quadrierten Abstände der <math>(x_i,y_i)</math> von den zugehörigen Fußpunkten <math>(x_i^*,y_i^*)</math> auf der Geraden minimiert. Wegen <math>y_i^*=\beta_0+\beta_1x_i^*</math> berechnet man diese quadrierten Abstände zu <math>(y_i-\beta_0-\beta_1x_i^*)^2+(x_i-x_i^*)^2</math>, deren Summe minimiert werden soll:

<math>SSR = \sum_{i=1}^n\Big((y_i-\beta_0-\beta_1x^*_i)^2 + (x_i-x^*_i)^2\Big) \ \to\ \min_{\beta_0,\beta_1,x_i^*} SSR</math>

Für die weitere Rechnung werden die folgenden Hilfswerte benötigt:

<math>\overline{x} = \frac{1}{n}\sum_{i=1}^n x_i</math>     (arithmetisches Mittel der <math>x_i</math>)
<math>\overline{y} = \frac{1}{n}\sum_{i=1}^n y_i</math>     (arithmetisches Mittel der <math>y_i</math>)
<math>s_x^2 = \tfrac{1}{n-1}\sum_{i=1}^n (x_i-\overline{x})^2</math>     (Stichprobenvarianz der <math>x_i</math>)
<math>s_y^2 = \tfrac{1}{n-1}\sum_{i=1}^n (y_i-\overline{y})^2</math>     (Stichprobenvarianz der <math>y_i</math>)
<math>s_{xy} = \tfrac{1}{n-1}\sum_{i=1}^n (x_i-\overline{x})(y_i-\overline{y})</math>     (Stichprobenkovarianz der <math>(x_i,y_i)</math>)

Damit ergeben sich die Parameter zur Lösung des Minimierungsproblems:<ref>P. Glaister: Least squares revisited. The Mathematical Gazette. Vol. 85 (2001), S. 104–107.</ref><ref>G. Casella, R. L. Berger: Statistical Inference. 2. Auflage. Cengage Learning, Boston 2008, ISBN 978-0-495-39187-6.</ref><ref>J. Hedderich, Lothar Sachs: Angewandte Statistik. Methodensammlung mit R. 15. Auflage. Springer Berlin, Heidelberg 2015, ISBN 978-3-662-45690-3.</ref>

<math>\beta_1 = \frac{s_y^2 - s_x^2 + \sqrt{(s_y^2 - s_x^2)^2 + 4s_{xy}^2}}{2s_{xy}}</math>
<math>\beta_0 = \overline{y} - \beta_1\overline{x}</math>

Die <math>x</math>-Koordinaten der Fußpunkte berechnet man mit

<math>x_i^* = x_i + \frac{\beta_1}{\beta_1^2 + 1}(y_i - \beta_0 - \beta_1x_i)</math>

Alternativer Rechenweg

Datei:GeoReg1.png
Abstand di eines Punktes P(xi;yi) zur Geraden y=mx+t

Der geometrische Abstand <math>d_i</math> eines Messpunktes <math>P(x_i | y_i)</math> zu einer Ausgleichsgeraden

<math>f(x) = mx + t</math>

lässt sich wegen <math>d_i : (y_i - ( mx_i + t )) = 1 : \sqrt{1+m^2}</math> wie folgt berechnen:

<math>d_i^2 = \frac{ ( y_i - ( mx_i + t ))^2}{1 + m^2}</math>

Gesucht sind nun die Koeffizienten <math>m</math> und <math>t</math> mit der kleinsten Summe der Fehlerquadrate.

<math>\min_{m,t}\sum_{i=1}^N d_i^2</math>

Berechnung der partiellen Ableitung nach t

Die Gleichung

<math>\frac{\partial}{\partial t} \sum_{i=1}^N \frac{ ( y_i - ( mx_i + t ))^2}{1 + m^2} = 0</math>

ergibt als Lösung

<math>t = \overline{y} - m\overline{x}</math>

Dabei wird als <math>\overline{x}</math> der Mittelwert der <math>x</math>-Koordinaten der Messpunkte bezeichnet. Analog dazu ist <math>\overline{y}</math> der Mittelwert der <math>y</math>-Koordinaten der Messpunkte. Diese Lösung hat auch zur Folge, dass der Punkt <math>P(\overline{x}|\overline{y})</math> stets auf der Ausgleichsgeraden liegt.

Berechnung der partiellen Ableitung nach m

Die Gleichung

<math>\frac{\partial}{\partial \, m} \sum_{i=1}^N \frac{ ( y_i - ( mx_i + t ))^2}{1 + m^2} = 0</math>

ergibt folgende quadratische Gleichung:

<math>m^2 S_{xy} + m ( S_{xx} - S_{yy}) - S_{xy} = 0</math>

Dabei sind

<math>S_{xx} = \sum_{i=1}^N (x_i - \overline{x})^2\;</math> und <math>\;S_{yy} = \sum_{i=1}^N (y_i - \overline{y})^2</math>

die Quadratsummen der Messwerte von <math>X</math> und <math>Y</math> und

<math>S_{xy} = \sum_{i=1}^N (x_i - \overline{x}) (y_i - \overline{y})</math>

die Produktsumme zwischen <math>X</math> und <math>Y</math>.

Auf Grund des Steigungsverhaltens dieser Parabel ergibt sich für das Minimum hier die eine Lösung:

<math>m = \frac{S_{yy} - S_{xx} + \sqrt{(S_{xx} - S_{yy})^2 + 4 (S_{xy})^2}}{2 S_{xy}}</math>

Die Gleichung der geometrischen Ausgleichsgeraden lautet somit:

<math> f(x) = m ( x - \overline{x} ) + \overline{y}</math>

Beispiel

Datei:GeoReg2.png
f(x) = 0,8 ( x – 3,3 ) + 4,1
<math>x_i</math> <math>y_i</math> <math>x_i-\overline{x}</math> <math>y_i-\overline{y}</math> <math>(x_i-\overline{x})^2</math> <math>(x_i-\overline{x})(y_i-\overline{y})</math> <math>(y_i-\overline{y})^2</math>
P1 1,0 2,0 −2,3 −2,1 5,29 4,83 4,41
P2 2,0 3,5 −1,3 −0,6 1,69 0,78 0,36
P3 4,0 5,0 0,7 0,9 0,49 0,63 0,81
P4 4,5 4,5 1,2 0,4 1,44 0,48 0,16
P5 5,0 5,5 1,7 1,4 2,89 2,38 1,96
Summe <math>16{,}5</math> <math>20{,}5</math> <math>0{,}0</math> <math>0{,}0</math> <math>S_{xx} = 11{,}8</math> <math>S_{xy} = 9{,}1</math> <math>S_{yy} = 7{,}7</math>
Mittelwert <math>\overline{x} = 3{,}3</math> <math>\overline{y} = 4{,}1</math>
<math>m = \frac{-4{,}1 + \sqrt{4{,}1^2 + 4\cdot 9{,}1^2}}{2\cdot 9{,}1}</math>

Es ergibt sich <math>m = 0{,}8</math> und die geometrische Ausgleichsgerade lautet daher wie folgt:

<math> f(x) = 0{,}8 ( x - 3{,}3 ) + 4{,}1</math>

Einzelnachweise

<references />

en:Total least squares#Geometrical interpretation