M-Schätzer
M-Schätzer, auch maximum-likelihood-artige Schätzer stellen eine Klasse von Schätzfunktionen dar, die als Verallgemeinerung der Maximum-Likelihood-Methode angesehen werden können. M-Schätzer sind im Vergleich zu anderen Schätzern wie z. B. den Maximum-Likelihood-Schätzern robuster gegen Ausreißer.
Dieser Artikel behandelt M-Schätzer zur Ermittlung des Lageparameters.
Herleitung durch Verallgemeinerung der Maximum-Likelihood-Methode
Das Prinzip von Maximum-Likelihood-Schätzern beruht darauf, die Funktion
- <math>
\sum_{i=1}^n -\ln f_{X_i}(x_i;\Theta) </math>
mit entsprechender Dichte- bzw. Wahrscheinlichkeitsfunktion <math>f_X(x)</math> in Abhängigkeit von <math>\Theta</math> zu minimieren.
Die Idee bei M-Schätzern ist, die Funktion <math>-\ln f_{X_i}(x_i;\Theta)</math> durch eine Funktion <math>\rho(x;\Theta)</math> zu ersetzen, welche weniger empfindlich auf Ausreißer reagiert. Aufgabe ist es, den Ausdruck
- <math>
\sum_{i=1}^n \rho(x_i;\Theta) </math>
in Abhängigkeit von <math>\Theta</math> zu minimieren, bzw. die Gleichung
- <math>
\sum \psi(x_i;\Theta) = 0 </math>
mit
- <math>\psi(x_i;\Theta) = \frac{\partial \rho}{\partial \Theta}(x_i;\Theta)</math>
zu lösen.
Jede Lösung dieser Gleichung wird M-Schätzer genannt.
Implizite Definition
Sei <math>F</math> eine beliebige Verteilungsfunktion und <math>\psi</math> eine ungerade und monoton wachsende Funktion ungleich 0. Dann ist <math>\mu_{\psi}(F)</math> definiert als die Lösung <math>\mu = \mu_{\psi}(F)</math> der Gleichung
- <math>
\operatorname{E}(\psi(x - \mu)) = \int \psi(x - \mu)dF(x) = 0 </math>
Beachtet werden muss, dass abhängig von der Wahl von <math>\psi</math> und <math>F</math> es entweder keine, eine oder mehrere Lösungen geben kann. Im Falle einer konkreten Stichprobe wird <math>\mu = \mu_{\psi}(F_n)</math>, die Lösung von
- <math>
\frac{1}{n} \sum_{i=1}^n \psi(x_i - \mu) = \int \psi(x - \mu)dF_n(x) = 0 </math>
M-Schätzer genannt.
Geeignete Funktionen ρ
Im Folgenden sind die <math>x_i</math> gemäß
- <math>
z_i = \frac{x_i - \Theta}{S_n} </math>
standardisiert, um Skaleninvarianz zu erreichen. <math>S_n</math> stellt hierbei einen Streuungschätzer dar, für den meist der MAD (Median Absolute Deviation) verwendet wird.
| Methode | <math>\rho(z)</math> | <math>\psi(z)</math> | <math>w(z)</math> |
|---|---|---|---|
| Kleinste-Quadrate-Methode | <math> \rho_{LS}(z) = \frac{z^2}{2} </math> | <math> \psi_{LS}(z) = z </math> | <math> w_{LS}(z) = 1 </math> |
| Huber-k-Schätzer | <math>
\rho_H(z) = \begin{cases} \frac{z^2 }{2}& |z| \leq{} k \\ k|z| - \frac{1}{2}k^2 & |z| > k \end{cases} </math> |
<math>
\psi_H(z) = \begin{cases} z & |z| \leq{} k \\ k \operatorname{sgn}(z) & |z| > k \end{cases} </math> |
<math>
w_H(z) = \begin{cases} 1 & |z| \leq{} k \\ \frac{k}{|z|} & |z| > k \end{cases} </math> |
| Hampel-Schätzer | <math>
\rho_{Ha}(z) = \begin{cases} \frac{z^2}{2} & |z| \leq{} a \\ a|z| - \frac{a^2}{2} & a < |z| \leq b \\ ab - \frac{a^2}{2}+(c-b)\frac{a}{2} \left(1-\left( \frac{c-|z|}{c-b}\right)^2\right) & b < |z| \leq c\\ ab-\frac{a^2}{2}+(c-b)\frac{a}{2} & |z|>c \end{cases} </math> |
<math>
\psi_{Ha}(z) = \begin{cases} z & |z| \leq{} a \\ a\,\operatorname{sgn}(z) & a < |z| \leq b \\ a\frac{c-|z|}{c-b} \operatorname{sgn}(z) & b < |z| \leq c\\ 0 & |z|>c \end{cases} </math> |
<math>
w_{Ha}(z) = \begin{cases} 1 & |z| \leq{} a \\ a\frac{1}{|z|} & a < |z| \leq b \\ a\frac{c-|z|}{c-b} \frac{1}{|z|}& b < |z| \leq c\\ 0 & |z|>c \end{cases} </math> |
| Andrews wave | <math>
\rho_{Aw}(z) = \begin{cases} \frac{a^2}{\pi^2} \left(1-\cos\left( \frac{\pi z}{a} \right)\right)& |z| \leq{} a \\ \frac{2a^2}{\pi^2} & |z|>a \end{cases} </math> |
<math>
\psi_{Aw}(z) = \begin{cases} \frac{a}{\pi} \sin\left( \frac{\pi z}{a} \right)& |z| \leq{} a \\ 0 & |z|>a \end{cases} </math> |
<math>
w_{Aw}(z) = \begin{cases} \frac{a}{\pi z} \sin\left( \frac{\pi z}{a} \right)& |z| \leq{} a \\ 0 & |z|>a \end{cases} </math> |
| Tukey's biweight | <math>
\rho_{Tb}(z) = \begin{cases} \frac{a^2}{6} \left(1-\left(1-\frac{z^2}{a^2}\right)^3\right)& |z| \leq{} a \\ \frac{a^2}{6} & |z|>a \end{cases} </math> |
<math>
\psi_{Tb}(z) = \begin{cases} z \left(1-\frac{z^2}{a^2}\right)^2 & |z| \leq{} a \\ 0 & |z|>a \end{cases} </math> |
<math>
w_{Tb}(z) = \begin{cases} \left(1-\frac{z^2}{a^2}\right)^2 & |z| \leq{} a \\ 0 & |z|>a \end{cases} </math> |
Die Gewichtsfunktionen im folgenden Bild zeigen die Unterschiede zwischen den Schätzern auf: bei Huber-k haben auch extreme Beobachtungen ein geringes Gewicht, beim Hampel-, Andrews wave- und Tukey's biweight-Schätzer wird extremen Beobachtungen das Gewicht Null zugeordnet.
Robustheit
Bei geeigneter Wahl von <math>\psi</math> (ungerade, beschränkt und monoton steigend) haben M-Schätzer einen Bruchpunkt von <math>\epsilon^* = 0{,}5</math>.<ref>{{#invoke:Vorlage:Literatur|f}}</ref>
Numerische Lösungsmethode
Für viele Funktionen <math>\rho</math> lässt sich keine explizite Lösung angeben, sie muss daher numerisch berechnet werden. Wie üblich zur Berechnung von Nullstellenproblemen bietet sich auch hier das Newton-Raphson-Verfahren an, und es ergibt sich folgende Iterationsvorschrift, wobei wiederum <math>z_i = \frac{x_i - \mu}{S_n}</math> :
- <math>
\mu_{k+1} = \mu_k + \frac{S_n \sum_{i=1}^n \psi(z_i)}{\sum_{i=1}^n \psi^\prime(z_i)} </math>
Als geeigneter Startwert <math>\mu_0</math> wird meist der Median verwendet. Dieses Iterationsverfahren konvergiert sehr schnell, meist sind zwei bis drei Iterationsschritte ausreichend.
W-Schätzer
W-Schätzer sind M-Schätzern sehr ähnlich und liefern im Normalfall gleiche Ergebnisse. Der einzige Unterschied liegt in der Lösung des Minimierungsproblems. W-Schätzer werden meist bei der robusten Regression eingesetzt.
Es wird die Wichtungsfunktion
- <math>w(z) = \frac{\psi(z)}{z}</math>
mit
- <math>\psi(x_i;\Theta) = \frac{\partial \rho}{\partial \Theta}(x_i;\Theta)</math>
eingeführt, mit deren Hilfe das Minimierungsproblem umgeschrieben werden kann in
- <math> \sum_{i=1}^n z_iw(z_i) = 0</math>
Einsetzen der Definition von <math>z_i</math>, ausmultiplizieren und umstellen ergibt schließlich über die Fixpunktgleichung
- <math> \Theta = \frac{\sum_{i=1}^n x_iw(\frac{x_i - \Theta}{S_n})}{\sum_{i=1}^n w(\frac{x_i - \Theta}{S_n})} </math>
die Iterationsvorschrift
- <math> \Theta_{t+1} = \frac{\sum_{i=1}^n x_iw(\frac{x_i - \Theta_t}{S_n})}{\sum_{i=1}^n w(\frac{x_i - \Theta_t}{S_n})} </math>
Siehe auch
- Sogenannte RANSAC-Algorithmen
Literatur
- {{#invoke:Vorlage:Literatur|f}}
- Robert G. Staudte: Robust estimation and testing. Wiley, New York 1990. ISBN 0-471-85547-2
- Rand R. Wilcox: Introduction to robust estimation and hypothesis testing. Academic Press, San Diego Cal 1997. ISBN 0-12-751545-3
Einzelnachweise
<references />