M-Schätzer

M-Schätzer, auch maximum-likelihood-artige Schätzer stellen eine Klasse von Schätzfunktionen dar, die als Verallgemeinerung der Maximum-Likelihood-Methode angesehen werden können. M-Schätzer sind im Vergleich zu anderen Schätzern wie z. B. den Maximum-Likelihood-Schätzern robuster gegen Ausreißer.

Dieser Artikel behandelt M-Schätzer zur Ermittlung des Lageparameters.

Herleitung durch Verallgemeinerung der Maximum-Likelihood-Methode

Das Prinzip von Maximum-Likelihood-Schätzern beruht darauf, die Funktion

<math>

\sum_{i=1}^n -\ln f_{X_i}(x_i;\Theta) </math>

mit entsprechender Dichte- bzw. Wahrscheinlichkeitsfunktion <math>f_X(x)</math> in Abhängigkeit von <math>\Theta</math> zu minimieren.

Die Idee bei M-Schätzern ist, die Funktion <math>-\ln f_{X_i}(x_i;\Theta)</math> durch eine Funktion <math>\rho(x;\Theta)</math> zu ersetzen, welche weniger empfindlich auf Ausreißer reagiert. Aufgabe ist es, den Ausdruck

<math>

\sum_{i=1}^n \rho(x_i;\Theta) </math>

in Abhängigkeit von <math>\Theta</math> zu minimieren, bzw. die Gleichung

<math>

\sum \psi(x_i;\Theta) = 0 </math>

mit

<math>\psi(x_i;\Theta) = \frac{\partial \rho}{\partial \Theta}(x_i;\Theta)</math>

zu lösen.

Jede Lösung dieser Gleichung wird M-Schätzer genannt.

Implizite Definition

Sei <math>F</math> eine beliebige Verteilungsfunktion und <math>\psi</math> eine ungerade und monoton wachsende Funktion ungleich 0. Dann ist <math>\mu_{\psi}(F)</math> definiert als die Lösung <math>\mu = \mu_{\psi}(F)</math> der Gleichung

<math>

\operatorname{E}(\psi(x - \mu)) = \int \psi(x - \mu)dF(x) = 0 </math>

Beachtet werden muss, dass abhängig von der Wahl von <math>\psi</math> und <math>F</math> es entweder keine, eine oder mehrere Lösungen geben kann. Im Falle einer konkreten Stichprobe wird <math>\mu = \mu_{\psi}(F_n)</math>, die Lösung von

<math>

\frac{1}{n} \sum_{i=1}^n \psi(x_i - \mu) = \int \psi(x - \mu)dF_n(x) = 0 </math>

M-Schätzer genannt.

Geeignete Funktionen ρ

Im Folgenden sind die <math>x_i</math> gemäß

<math>

z_i = \frac{x_i - \Theta}{S_n} </math>

standardisiert, um Skaleninvarianz zu erreichen. <math>S_n</math> stellt hierbei einen Streuungschätzer dar, für den meist der MAD (Median Absolute Deviation) verwendet wird.

Methode	<math>\rho(z)</math>	<math>\psi(z)</math>	<math>w(z)</math>
Kleinste-Quadrate-Methode	<math> \rho_{LS}(z) = \frac{z^2}{2} </math>	<math> \psi_{LS}(z) = z </math>	<math> w_{LS}(z) = 1 </math>
Huber-k-Schätzer	<math> \rho_H(z) = \begin{cases} \frac{z^2 }{2}& \|z\| \leq{} k \\ k\|z\| - \frac{1}{2}k^2 & \|z\| > k \end{cases} </math>	<math> \psi_H(z) = \begin{cases} z & \|z\| \leq{} k \\ k \operatorname{sgn}(z) & \|z\| > k \end{cases} </math>	<math> w_H(z) = \begin{cases} 1 & \|z\| \leq{} k \\ \frac{k}{\|z\|} & \|z\| > k \end{cases} </math>
Hampel-Schätzer	<math> \rho_{Ha}(z) = \begin{cases} \frac{z^2}{2} & \|z\| \leq{} a \\ a\|z\| - \frac{a^2}{2} & a < \|z\| \leq b \\ ab - \frac{a^2}{2}+(c-b)\frac{a}{2} \left(1-\left( \frac{c-\|z\|}{c-b}\right)^2\right) & b < \|z\| \leq c\\ ab-\frac{a^2}{2}+(c-b)\frac{a}{2} & \|z\|>c \end{cases} </math>	<math> \psi_{Ha}(z) = \begin{cases} z & \|z\| \leq{} a \\ a\,\operatorname{sgn}(z) & a < \|z\| \leq b \\ a\frac{c-\|z\|}{c-b} \operatorname{sgn}(z) & b < \|z\| \leq c\\ 0 & \|z\|>c \end{cases} </math>	<math> w_{Ha}(z) = \begin{cases} 1 & \|z\| \leq{} a \\ a\frac{1}{\|z\|} & a < \|z\| \leq b \\ a\frac{c-\|z\|}{c-b} \frac{1}{\|z\|}& b < \|z\| \leq c\\ 0 & \|z\|>c \end{cases} </math>
Andrews wave	<math> \rho_{Aw}(z) = \begin{cases} \frac{a^2}{\pi^2} \left(1-\cos\left( \frac{\pi z}{a} \right)\right)& \|z\| \leq{} a \\ \frac{2a^2}{\pi^2} & \|z\|>a \end{cases} </math>	<math> \psi_{Aw}(z) = \begin{cases} \frac{a}{\pi} \sin\left( \frac{\pi z}{a} \right)& \|z\| \leq{} a \\ 0 & \|z\|>a \end{cases} </math>	<math> w_{Aw}(z) = \begin{cases} \frac{a}{\pi z} \sin\left( \frac{\pi z}{a} \right)& \|z\| \leq{} a \\ 0 & \|z\|>a \end{cases} </math>
Tukey's biweight	<math> \rho_{Tb}(z) = \begin{cases} \frac{a^2}{6} \left(1-\left(1-\frac{z^2}{a^2}\right)^3\right)& \|z\| \leq{} a \\ \frac{a^2}{6} & \|z\|>a \end{cases} </math>	<math> \psi_{Tb}(z) = \begin{cases} z \left(1-\frac{z^2}{a^2}\right)^2 & \|z\| \leq{} a \\ 0 & \|z\|>a \end{cases} </math>	<math> w_{Tb}(z) = \begin{cases} \left(1-\frac{z^2}{a^2}\right)^2 & \|z\| \leq{} a \\ 0 & \|z\|>a \end{cases} </math>

Die Gewichtsfunktionen im folgenden Bild zeigen die Unterschiede zwischen den Schätzern auf: bei Huber-k haben auch extreme Beobachtungen ein geringes Gewicht, beim Hampel-, Andrews wave- und Tukey's biweight-Schätzer wird extremen Beobachtungen das Gewicht Null zugeordnet.

Datei:Mest weightfunc.jpg

Gewichtsfunktionen w(z) für verschiedene M-Schätzer. Die Parameterwerte entsprechen den Standardwerten von SPSS.

Robustheit

Bei geeigneter Wahl von <math>\psi</math> (ungerade, beschränkt und monoton steigend) haben M-Schätzer einen Bruchpunkt von <math>\epsilon^* = 0{,}5</math>.<ref>{{#invoke:Vorlage:Literatur|f}}</ref>

Numerische Lösungsmethode

Für viele Funktionen <math>\rho</math> lässt sich keine explizite Lösung angeben, sie muss daher numerisch berechnet werden. Wie üblich zur Berechnung von Nullstellenproblemen bietet sich auch hier das Newton-Raphson-Verfahren an, und es ergibt sich folgende Iterationsvorschrift, wobei wiederum <math>z_i = \frac{x_i - \mu}{S_n}</math> :

<math>

\mu_{k+1} = \mu_k + \frac{S_n \sum_{i=1}^n \psi(z_i)}{\sum_{i=1}^n \psi^\prime(z_i)} </math>

Als geeigneter Startwert <math>\mu_0</math> wird meist der Median verwendet. Dieses Iterationsverfahren konvergiert sehr schnell, meist sind zwei bis drei Iterationsschritte ausreichend.

W-Schätzer

W-Schätzer sind M-Schätzern sehr ähnlich und liefern im Normalfall gleiche Ergebnisse. Der einzige Unterschied liegt in der Lösung des Minimierungsproblems. W-Schätzer werden meist bei der robusten Regression eingesetzt.

Es wird die Wichtungsfunktion

mit

<math>\psi(x_i;\Theta) = \frac{\partial \rho}{\partial \Theta}(x_i;\Theta)</math>

eingeführt, mit deren Hilfe das Minimierungsproblem umgeschrieben werden kann in

Einsetzen der Definition von <math>z_i</math>, ausmultiplizieren und umstellen ergibt schließlich über die Fixpunktgleichung

<math> \Theta = \frac{\sum_{i=1}^n x_iw(\frac{x_i - \Theta}{S_n})}{\sum_{i=1}^n w(\frac{x_i - \Theta}{S_n})} </math>

die Iterationsvorschrift

<math> \Theta_{t+1} = \frac{\sum_{i=1}^n x_iw(\frac{x_i - \Theta_t}{S_n})}{\sum_{i=1}^n w(\frac{x_i - \Theta_t}{S_n})} </math>

Siehe auch

Sogenannte RANSAC-Algorithmen

Literatur

{{#invoke:Vorlage:Literatur|f}}
Robert G. Staudte: Robust estimation and testing. Wiley, New York 1990. ISBN 0-471-85547-2
Rand R. Wilcox: Introduction to robust estimation and hypothesis testing. Academic Press, San Diego Cal 1997. ISBN 0-12-751545-3

Einzelnachweise