Verzerrung einer Schätzfunktion

Die Verzerrung oder auch das Bias oder systematischer Fehler<ref> Georgii: Stochastik. 2009, S. 207. </ref> einer Schätzfunktion ist in der Schätztheorie, einem Teilgebiet der mathematischen Statistik, diejenige Kennzahl oder Eigenschaft einer Schätzfunktion, welche die systematische Über- oder Unterschätzung der Schätzfunktion quantifiziert.

Erwartungstreue Schätzfunktionen haben per Definition eine Verzerrung von <math display="inline">0</math>.

Schätzer können durch Regularisierung absichtlich verzerrt werden, um eine kleinere Varianz des Schätzers zu erreichen – es handelt sich dann um Shrinkage-Schätzer.

Definition

Gegeben sei eine zu schätzende Funktion

<math> g \colon \Theta \to \R </math>

sowie ein statistisches Modell <math> (X, \mathcal A, (P_\vartheta)_{\vartheta \in \Theta}) </math> und ein Punktschätzer

<math> T \colon X \to \R </math>

Dann heißt

<math> \mathbb B_T(\vartheta):= \operatorname E_\vartheta(T) - g(\vartheta) </math>

die Verzerrung des Schätzers <math> T </math> bei <math> \vartheta </math>.

Dabei bezeichnet <math> \operatorname E_\vartheta </math> den Erwartungswert bezüglich des Wahrscheinlichkeitsmaßes <math> P_\vartheta </math>. Man schreibt das <math> \vartheta </math> in <math> \mathbb B_T(\vartheta)</math> und bei <math>\operatorname E_\vartheta(T) </math> tiefgestellt, um hervorzuheben, dass die Größen vom wahren Wert <math>\vartheta</math> abhängen.

Die Notation für die Verzerrung ist nicht einheitlich, in der Literatur finden sich u. a. auch <math> b(\vartheta) </math>, <math> b(\vartheta, T) </math> oder <math> \operatorname{Bias}_\vartheta(T) </math>.

Die Verzerrung ist der Erwartungswert des Schätzfehlers.

Beispiel

Gegeben seien <math> n </math> Zufallszahlen, die gleichverteilt in einem Intervall <math> [0,\vartheta] </math> sind. Aufgabe ist, <math> \vartheta </math> zu schätzen. Statistisches Modell ist

<math> ([0,\infty)^n, \mathcal B ([0,\infty)^n), (U_\vartheta^n)_{\vartheta \in \Theta} ) </math>,

wobei <math> \Theta= (0, \infty) </math> und <math> U_\vartheta </math> die stetige Gleichverteilung auf <math> [0, \vartheta] </math> ist.

Die zu schätzende Funktion ist <math> g(\vartheta)= \vartheta </math>, ein möglicher Schätzer wäre

<math> T(X)= \max (X_1, \dots, X_n) </math>,

da die größte ausgegebene Zufallszahl intuitiv "nah" an der unbekannten Obergrenze <math> \vartheta </math> liegt. Dann ist

<math> P_\vartheta(T\leq c)=\left( \frac{c}{\vartheta}\right)^n </math>

für alle <math> c \in [0, \vartheta ] </math>. Daraus folgt

<math> \operatorname E_\vartheta(T)=\frac{n}{n+1} \vartheta </math>,

somit ist die Verzerrung

<math> \mathbb B_T(\vartheta)= \frac{n}{n+1} \vartheta - \vartheta = - \frac{\vartheta}{n+1} </math>.

Die Verzerrung kommt hier zustande, da der Schätzer den wahren Wert stets unterschätzt, es ist <math> P_\vartheta(T < \vartheta)= 1 </math>.

Eigenschaften

Ist die Verzerrung eines Schätzers für alle <math> \vartheta \in \Theta </math> gleich Null, also

<math> \operatorname E_\vartheta(T)=g(\vartheta) \quad \mathrm{f\ddot ur \;alle\;} \vartheta \in \Theta </math>,

so nennt man diesen Schätzer einen erwartungstreuen Schätzer.

Der mittlere quadratische Fehler

<math> \mathbb F_T(\vartheta)=\operatorname E_\vartheta \left( \left( T - g(\vartheta)\right)^2\right) </math>

zerfällt aufgrund des Verschiebungssatzes in Varianz und Verzerrung

<math> \mathbb F_T(\vartheta)= \operatorname{Var}_\vartheta(T)+ \left( \mathbb B_T(\vartheta) \right)^2 </math>

Somit entspricht der mittlere quadratische Fehler bei erwartungstreuen Schätzern genau der Varianz des Schätzers.

Sowohl die Verzerrung als auch der mittlere quadratische Fehler sind wichtige Qualitätskriterien für Punktschätzer. Folglich versucht man, beide möglichst klein zu halten. Es gibt aber Fälle, in denen es zur Minimierung des mittleren quadratischen Fehlers sinnvoll ist, Verzerrung zuzulassen.

So ist im Binomialmodell <math> X= \{0, \dots, n \}, \mathcal A = \mathcal P (X) , P_\vartheta= \operatorname{Bin}_{n,\vartheta}</math> mit <math> \vartheta \in [0,1] </math> ein gleichmäßig bester erwartungstreuer Schätzer gegeben durch

<math> T_1(x)= \frac xn </math>,

heißt seine Varianz (und damit auch sein mittlerer quadratischer Fehler) ist für alle <math> \vartheta </math> kleiner als die jedes weiteren erwartungstreuen Schätzers. Der Schätzer

ist nicht erwartungstreu und folglich verzerrt, besitzt aber für Werte von <math> \vartheta </math> nahe an <math> 0 {,}5 </math> einen geringeren mittleren quadratischen Fehler<ref> Georgii: Stochastik. 2009, S. 209. </ref>.

Es können also nicht immer Verzerrung und mittlerer quadratischer Fehler gleichzeitig minimiert werden, siehe auch Verzerrung-Varianz-Dilemma.

Datei:Example when estimator bias is good.svg

Beispiel, wenn ein verzerrter Schätzer (blau) besser sein kann als ein unverzerrter Schätzer (gelb), da der verzerrte Schätzer eine kleinere Streuung besitzt.

Siehe auch

Weblinks

Eric W. Weisstein: Estimator Bias. In: MathWorld (englisch).

Literatur

Hans-Otto Georgii: Stochastik. Einführung in die Wahrscheinlichkeitstheorie und Statistik. 4. Auflage. Walter de Gruyter, Berlin 2009, ISBN 978-3-11-021526-7, doi:10.1515/9783110215274.
Ludger Rüschendorf: Mathematische Statistik. Springer Verlag, Berlin Heidelberg 2014, ISBN 978-3-642-41996-6, doi:10.1007/978-3-642-41997-3.
Claudia Czado, Thorsten Schmidt: Mathematische Statistik. Springer-Verlag, Berlin Heidelberg 2011, ISBN 978-3-642-17260-1, doi:10.1007/978-3-642-17261-8.

Einzelnachweise