Orthogonale Regression

Orthogonale Regression. Die roten Linien stellen die Abstände der Messwertpaare von der Ausgleichsgeraden dar.

In der Statistik dient die orthogonale Regression (genauer: orthogonale lineare Regression) zur Berechnung einer Ausgleichsgeraden für eine endliche Menge metrisch skalierter Datenpaare <math>(x_i,y_i)</math> nach der Methode der kleinsten Quadrate. Wie in anderen Regressionsmodellen wird dabei die Summe der quadrierten Abstände der <math>(x_i,y_i)</math> von der Geraden minimiert. Im Unterschied zu anderen Formen der linearen Regression werden bei der orthogonalen Regression nicht die Abstände in <math>x</math>- bzw. <math>y</math>-Richtung verwendet, sondern die orthogonalen Abstände. Dieses Verfahren unterscheidet nicht zwischen einer unabhängigen und einer abhängigen Variablen. Damit können – anders als bei der linearen Regression – Anwendungen behandelt werden, bei denen beide Variablen <math>x</math> und <math>y</math> messfehlerbehaftet sind.

Die orthogonale Regression ist ein wichtiger Spezialfall der Deming-Regression. Sie wurde erstmals 1840 im Zusammenhang mit einem geodätischen Problem von Julius Weisbach angewendet<ref>{{#invoke:Vorlage:Literatur|f}}</ref><ref>{{#invoke:Vorlage:Literatur|f}}</ref>, 1878 von Robert James Adcock in die Statistik eingeführt<ref>{{#invoke:Vorlage:Literatur|f}}</ref> und in allgemeinerem Rahmen 1943 von W. E. Deming für technische und ökonomische Anwendungen bekannt gemacht.<ref>{{#invoke:Vorlage:Literatur|f}}</ref>

Rechenweg

Es wird eine Gerade

gesucht, die die Summe der quadrierten Abstände der <math>(x_i,y_i)</math> von den zugehörigen Fußpunkten <math>(x_i^*,y_i^*)</math> auf der Geraden minimiert. Wegen <math>y_i^*=\beta_0+\beta_1x_i^*</math> berechnet man diese quadrierten Abstände zu <math>(y_i-\beta_0-\beta_1x_i^*)^2+(x_i-x_i^*)^2</math>, deren Summe minimiert werden soll:

Für die weitere Rechnung werden die folgenden Hilfswerte benötigt:

<math>\overline{x} = \frac{1}{n}\sum_{i=1}^n x_i</math> (arithmetisches Mittel der <math>x_i</math>)

<math>\overline{y} = \frac{1}{n}\sum_{i=1}^n y_i</math> (arithmetisches Mittel der <math>y_i</math>)

<math>s_x^2 = \tfrac{1}{n-1}\sum_{i=1}^n (x_i-\overline{x})^2</math> (Stichprobenvarianz der <math>x_i</math>)

<math>s_y^2 = \tfrac{1}{n-1}\sum_{i=1}^n (y_i-\overline{y})^2</math> (Stichprobenvarianz der <math>y_i</math>)

<math>s_{xy} = \tfrac{1}{n-1}\sum_{i=1}^n (x_i-\overline{x})(y_i-\overline{y})</math> (Stichprobenkovarianz der <math>(x_i,y_i)</math>)

Damit ergeben sich die Parameter zur Lösung des Minimierungsproblems:<ref>P. Glaister: Least squares revisited. The Mathematical Gazette. Vol. 85 (2001), S. 104–107.</ref><ref>G. Casella, R. L. Berger: Statistical Inference. 2. Auflage. Cengage Learning, Boston 2008, ISBN 978-0-495-39187-6.</ref><ref>J. Hedderich, Lothar Sachs: Angewandte Statistik. Methodensammlung mit R. 15. Auflage. Springer Berlin, Heidelberg 2015, ISBN 978-3-662-45690-3.</ref>

<math>\beta_0 = \overline{y} - \beta_1\overline{x}</math>

Die <math>x</math>-Koordinaten der Fußpunkte berechnet man mit

Alternativer Rechenweg

Datei:GeoReg1.png

Abstand di eines Punktes P(xi;yi) zur Geraden y=mx+t

Der geometrische Abstand <math>d_i</math> eines Messpunktes <math>P(x_i | y_i)</math> zu einer Ausgleichsgeraden

lässt sich wegen <math>d_i : (y_i - ( mx_i + t )) = 1 : \sqrt{1+m^2}</math> wie folgt berechnen:

Gesucht sind nun die Koeffizienten <math>m</math> und <math>t</math> mit der kleinsten Summe der Fehlerquadrate.

Berechnung der partiellen Ableitung nach t

Die Gleichung

<math>\frac{\partial}{\partial t} \sum_{i=1}^N \frac{ ( y_i - ( mx_i + t ))^2}{1 + m^2} = 0</math>

ergibt als Lösung

<math>t = \overline{y} - m\overline{x}</math>

Dabei wird als <math>\overline{x}</math> der Mittelwert der <math>x</math>-Koordinaten der Messpunkte bezeichnet. Analog dazu ist <math>\overline{y}</math> der Mittelwert der <math>y</math>-Koordinaten der Messpunkte. Diese Lösung hat auch zur Folge, dass der Punkt <math>P(\overline{x}|\overline{y})</math> stets auf der Ausgleichsgeraden liegt.

Berechnung der partiellen Ableitung nach m

Die Gleichung

<math>\frac{\partial}{\partial \, m} \sum_{i=1}^N \frac{ ( y_i - ( mx_i + t ))^2}{1 + m^2} = 0</math>

ergibt folgende quadratische Gleichung:

Dabei sind

<math>S_{xx} = \sum_{i=1}^N (x_i - \overline{x})^2\;</math> und <math>\;S_{yy} = \sum_{i=1}^N (y_i - \overline{y})^2</math>

die Quadratsummen der Messwerte von <math>X</math> und <math>Y</math> und

<math>S_{xy} = \sum_{i=1}^N (x_i - \overline{x}) (y_i - \overline{y})</math>

die Produktsumme zwischen <math>X</math> und <math>Y</math>.

Auf Grund des Steigungsverhaltens dieser Parabel ergibt sich für das Minimum hier die eine Lösung:

Die Gleichung der geometrischen Ausgleichsgeraden lautet somit:

<math> f(x) = m ( x - \overline{x} ) + \overline{y}</math>

Beispiel

Datei:GeoReg2.png

f(x) = 0,8 ( x – 3,3 ) + 4,1

	<math>x_i</math>	<math>y_i</math>	<math>x_i-\overline{x}</math>	<math>y_i-\overline{y}</math>	<math>(x_i-\overline{x})^2</math>	<math>(x_i-\overline{x})(y_i-\overline{y})</math>	<math>(y_i-\overline{y})^2</math>
P1	1,0	2,0	−2,3	−2,1	5,29	4,83	4,41
P2	2,0	3,5	−1,3	−0,6	1,69	0,78	0,36
P3	4,0	5,0	0,7	0,9	0,49	0,63	0,81
P4	4,5	4,5	1,2	0,4	1,44	0,48	0,16
P5	5,0	5,5	1,7	1,4	2,89	2,38	1,96
Summe	<math>16{,}5</math>	<math>20{,}5</math>	<math>0{,}0</math>	<math>0{,}0</math>	<math>S_{xx} = 11{,}8</math>	<math>S_{xy} = 9{,}1</math>	<math>S_{yy} = 7{,}7</math>
Mittelwert	<math>\overline{x} = 3{,}3</math>	<math>\overline{y} = 4{,}1</math>

Es ergibt sich <math>m = 0{,}8</math> und die geometrische Ausgleichsgerade lautet daher wie folgt:

Einzelnachweise

en:Total least squares#Geometrical interpretation