Konvergenz in Wahrscheinlichkeit

Graph einer Versuchsreihe mit stochastischer Konvergenz der relativen Häufigkeit gegen einen Grenzwert

Die Konvergenz in Wahrscheinlichkeit, auch stochastische Konvergenz genannt, ist ein Begriff aus der Wahrscheinlichkeitstheorie, einem Teilgebiet der Mathematik. Die Konvergenz in Wahrscheinlichkeit ist das wahrscheinlichkeitstheoretische Pendant zur Konvergenz nach Maß in der Maßtheorie und neben der Konvergenz im p-ten Mittel, der Konvergenz in Verteilung und der fast sicheren Konvergenz einer der Konvergenzbegriffe in der Stochastik. Es finden sich auch Quellen, welche die Konvergenz in Wahrscheinlichkeit analog zur Konvergenz lokal nach Maß der Maßtheorie definieren. Die Konvergenz in Wahrscheinlichkeit findet beispielsweise Anwendung bei der Formulierung des schwachen Gesetzes der großen Zahlen.

Definition

Für reellwertige Zufallsvariablen

Eine Folge <math> (X_n)_{n \in \N} </math> von reellen Zufallsvariablen konvergiert in Wahrscheinlichkeit oder stochastisch gegen die Zufallsvariable <math> X </math>, wenn für jedes <math> \epsilon > 0 </math> gilt, dass

<math> \lim_{n \to \infty}P(|X_n-X|\geq \epsilon ) = 0 </math>

ist. Man schreibt dann <math>X_n \stackrel{p}{\rightarrow} X</math> oder <math>X_n \stackrel{P}{\rightarrow} X</math> oder auch <math>\operatorname{plim}(X_n) =X</math>.

Für Zufallsvektoren

Eine Folge <math> (\mathbf{X}_n)_{n \in \N} </math> von Zufallsvektoren mit Werten in <math> \R^m</math> konvergiert in Wahrscheinlichkeit oder stochastisch gegen den <math>m</math>-dimensionalen Zufallsvektor <math> \mathbf{X} </math>, wenn für jedes <math> \epsilon > 0 </math> gilt, dass

<math> \lim_{n \to \infty}P(d(\mathbf{X}_n,\mathbf{X}) \geq \epsilon ) = 0 </math>

ist, wobei <math>d</math> eine Metrik auf <math> \R^m</math> ist. Man schreibt dann <math>\mathbf{X}_n \stackrel{p}{\rightarrow} \mathbf{X}</math> oder <math>\mathbf{X}_n \stackrel{P}{\rightarrow} \mathbf{X}</math> oder <math>\operatorname{plim}(\mathbf{X}_n) =\mathbf{X}</math>.
Die verwendete Metrik <math>d</math> kann beispielsweise die euklidische Metrik, die Manhattan-Metrik oder die Maximum-Metrik sein. Sie erzeugen dasselbe Konzept der Konvergenz in Wahrscheinlichkeit für Zufallsvektoren.

Allgemeiner Fall

Seien <math> (M,d) </math> ein separabler metrischer Raum und <math> \mathcal B (M) </math> die zugehörige Borelsche σ-Algebra. Eine Folge <math> (X_n)_{n \in \N} </math> von Zufallsvariablen auf einem Wahrscheinlichkeitsraum <math> (\Omega, \mathcal A, P )</math> mit Werten in <math>(M, \mathcal B(M))</math> heißt konvergent in Wahrscheinlichkeit oder stochastisch konvergent gegen <math> X </math>, wenn für alle <math> \epsilon > 0 </math> gilt, dass

<math> \lim_{n \to \infty}P(d(X_n,X)\geq \epsilon ) = 0 </math>

ist. Dabei wird die vorausgesetzte Separabilität benötigt, um die in der Definition verwendete Messbarkeit der Abbildung <math>\Omega \rightarrow \R, \, \omega \mapsto d(X_n(\omega),X(\omega))</math>, sicherzustellen.

Beispiel 1

Datei:Law of Large Numbers - Urn Problems - Low Resolution.gif

Animation – Urnenmodell mit Zurücklegen und gleicher Wahrscheinlichkeit für rote bzw. blaue Kugel

Seien <math> Y_n </math> unabhängige Rademacher-verteilte Zufallsvariablen, also <math> P(Y_n=-1)=P(Y_n=1)=\tfrac{1}{2} </math>. Dann ist <math> \operatorname{E}(Y_n)=0 </math> und <math> \operatorname{Var}(Y_n)=1 </math>. Definiert man nun die Folge von Zufallsvariablen <math> (X_n)_{n \in \N} </math> als

<math> X_n:= \frac{1}{n} \sum_{i=1}^n Y_i </math>,

so ist aufgrund der Unabhängigkeit

<math> \operatorname{E}(X_n)=\frac{1}{n} \cdot n \operatorname{E}(Y_n) = 0 </math>

und

<math> \operatorname{Var}(X_n)= \frac{1}{n^2} \operatorname{Var}\left(\sum_{i=1}^n Y_i\right)= \frac{1}{n} </math>.

Mit der Tschebyscheff-Ungleichung

<math>P\left[|X_n - \operatorname{E}[X_n]| \geq \epsilon\right] \leq \frac{\operatorname{Var}[X_n]}{\epsilon^2}</math>

erhält man dann die Abschätzung

<math>P\left[|X_n| \geq \epsilon\right] \leq \frac{1}{ n\epsilon^2} \stackrel{n \to \infty }{\longrightarrow} 0</math>.

Also konvergieren die <math> X_n </math> in Wahrscheinlichkeit gegen 0. Neben der Tschebyscheff-Ungleichung ist die allgemeinere Markow-Ungleichung ein hilfreiches Mittel, um Konvergenz in Wahrscheinlichkeit zu zeigen.

Beispiel 2 – Konvergenz nach Wahrscheinlichkeit

Das folgende Beispiel zeigt eine Folge <math>(X_n)_{n\in\mathbb{N}}</math> von Zufallsgrößen, die zwar nach Wahrscheinlichkeitkeit gegen eine konstante Grenzfunktion auf dem Einheitsintervall <math>\Omega = [0,1]</math> konvergiert, aber nicht <math>P</math>-fast sicher gegen die Grenzfunktion. Die Folge <math>(X_n)_{n\in\mathbb{N}}</math> besitzt eine "wandernde schrumpfenden Sprungstelle". Auf einem Intervall <math>[a_n,b_n]</math> springt die Zufallsgröße von <math>-1</math> auf <math>+2</math>. Die Intervallbreite <math>[a_n,b_n]</math> halbiert sich jeweils nach ein Durchlauf über das Intervall.

Definition der Folge von Zufallsgrößen

Die folgende Definition legt die Sprunstelle für das Intervall fest.

<math>

\begin{array}{rrcl} 
  X_n : & \Omega & \rightarrow & \mathbb{R} \\ 
      &  \omega  & \mapsto & X_n(\omega) = \begin{cases}
 +2 & , & x \in [a_n, b_n] \\ 
 -1  & , & x \notin [a_n, b_n] \\ 
\end{cases} 
 \end{array}

</math> Für die Intervallgrenzen <math>a_n,b_n</math> gilt <math>0\leq a_n < b_n \leq 1 </math> und <math> b_n-a_n = \frac{1}{2^i} </math>.

Berechnung der Intervallbreiten

Die Intervallgrenzen <math>a_n, b_n</math> werden in Abhängigkeit von <math>n</math> durch die fortgesetzte Intervallhalbierung definiert. Der Logarithmus zur Basis 2 ist für die Berechnung notwendig, um die Intervallbreite <math>s_n</math> zu bestimmen:

<math> e_n:= \lfloor \log_2 (n) \rfloor \ \ \ s_n:= \frac{1}{2^{e_n}}= 2^{-e_n}</math>

Mit der Anwendung der Gaußklammer ist der Exponent <math>e_n\in\mathbb{N}_0</math> ganzzahlig und bleibt zusammen mit der Intervallbreite <math>s_n</math> für einen "wandernden Durchlauf der Sprungstelle" konstant.

Berechnung der Intervallgrenzen

Es gilt <math>e_n=3</math> für alle <math>n=8,\ldots , 15</math> und die Intervallbreite der Sprungstelle ist für diese <math>n</math> jeweils <math display="inline">s_n=\frac{1}{8}</math>. Die Intervalle der Sprungstelle wandern für diese Index von <math display="inline">[a_8,b_8]=\left[\frac{0}{8},\frac{1}{8}\right]</math>, <math display="inline">[a_9,b_9]=\left[\frac{1}{8},\frac{2}{8}\right]</math>, ... , <math display="inline">[a_{15},b_{15}]=\left[\frac{1}{8},\frac{2}{8}\right]</math>. Allgemein werden die Intervallgrenzen wie folgt definiert:

<math>

\begin{array}{rcl}

 a_n
  & := & 
  \displaystyle
  \frac{n-2^{e_n}}{2^{e_n}}

\\

 b_n
  & := & 
  \displaystyle
  \frac{n+1-2^{e_n}}{2^{e_n}}

\\

\end{array}

</math>

Animation – Konvergenz nach Wahrscheinlichkeit

Die folgende Animation zeigt die Zufallsgrößen mit wachsendem <math>n</math> und einer <math>\varepsilon</math>-Umgebung mit <math>\varepsilon := 0{,}4</math>. Die Grenzfunktion <math>X_0\colon \Omega \to \mathbb{R}</math> mit <math>\Omega := [0,1]</math> ist eine konstante Funktion mit <math>X_0(\omega) = -1</math>.

Konvergenz nach Wahrscheinlichkeit – Beispiel wandernde Sprungstelle

Wahrscheinlichkeitsverteilung

Die Wahrscheinlichkeitsverteilung ist die Rechteckverteilung auf <math>\Omega = [0,1]</math>. Für <math>\varepsilon = 0{,}4</math> in der Animation kann man z. B. die Indexschranke <math>n_\varepsilon = 8 </math> wählen, damit die Intervallbreite der Sprungstelle für <math>s_n \leq \frac{1}{8} < 0{,}4 = \varepsilon </math> für alle <math>n\geq n_\varepsilon</math> erfüllt ist. Durch die schrumpfenden Breite der Sprungstelle konvergiert die Wahrscheinlichkeitsmasse der Menge <math>\{\omega \in \Omega \, : \, |X_n(\omega)-X_0(\omega)| \geq \varepsilon \}</math> für beliebige <math>\varepsilon > 0</math> und <math>n\to \infty</math> gegen 0.

Keine P-fast sichere Konvergenz

Da die Sprungstelle über den Definitionsbereich <math>\Omega</math> wandert, konvergiert die Funktionenfolge <math>(X_n)_{n\in \mathbb{N}}</math> für kein <math>\omega \in \Omega = [0,1]</math>, da für jeden Punkt <math> \omega\in \Omega </math> die zugehörige reelle Zahlenfolgen <math>\big(X_n(\omega)\big)_{n\in \mathbb{N}}</math> für alle <math>\varepsilon < 1 </math> aus der <math>\varepsilon</math>-Umgebung springt. Daher besteht die Menge der Punkte <math>\mathcal{N}</math>, für die <math>\big(X_n(\omega)\big)_{n\in \mathbb{N}}</math> nicht konvergiert, aus allen Punkte von <math>\Omega = \mathcal{N}</math>.

Eigenschaften

Konvergiert <math> (X_n)_{n \in N} </math> stochastisch gegen 0 und konvergiert <math> (Y_n)_{n \in N} </math> stochastisch gegen 0, so konvergiert auch <math> (X_n+Y_n)_{n \in N} </math> stochastisch gegen 0.
Ist die reelle Zahlenfolge <math> (a_n)_{n \in \N} </math> beschränkt und konvergiert <math> (X_n)_{n \in N} </math> stochastisch gegen 0, so konvergiert auch <math> (a_n X_n)_{n \in N} </math> stochastisch gegen 0.
Man kann zeigen, dass eine Folge <math>(X_n)_{n \in \N}</math> genau dann stochastisch gegen <math>X</math> konvergiert, falls

<math>\lim_{n \to\infty} \operatorname{E}[ \min(1, d(X_n, X))] = 0,</math>

das heißt, die stochastische Konvergenz entspricht der Konvergenz bezüglich der Metrik <math>d_{\mathbb{P}}(X,Y) := \operatorname{E}[\min(1, d(X, Y))]</math>. Der Raum aller Zufallsvariablen versehen mit dieser Metrik bildet einen topologischen Vektorraum, der im Allgemeinen nicht lokalkonvex ist.

Eine Folge von Zufallsvektoren <math> (\mathbf{X}_n)_{n \in \N} </math> mit Werten in <math> \R^m</math> konvergiert stochastisch gegen den <math>m</math>-dimensionalen Nullvektor <math> \mathbf{0}</math> genau dann, wenn er komponentenweise stochastisch gegen Null konvergiert, wenn also

<math> X_{jn} \stackrel{p}{\rightarrow} 0\quad\text{für jedes }j \in \{1,\dots,m\}</math>

gilt, wobei <math>X_{jn}</math> die <math>j</math>-te Komponente des Vektors <math> \mathbf{X}_n = (X_{1n},\dots,X_{mn})</math> bezeichnet.

Beziehung zu anderen Konvergenzarten der Stochastik

Allgemein gelten für die Konvergenzbegriffe der Wahrscheinlichkeitstheorie die Implikationen

<math> \begin{matrix} \text{Fast sichere} \\ \text{Konvergenz} \end{matrix} \implies

\begin{matrix} \text{Konvergenz in} \\ \text{Wahrscheinlichkeit} \end{matrix} \implies \begin{matrix} \text{Konvergenz in} \\ \text{Verteilung} \end{matrix} </math>

und

<math> \begin{matrix} \text{Konvergenz im} \\ \text{p-ten Mittel} \end{matrix} \implies

\begin{matrix} \text{Konvergenz in} \\ \text{Wahrscheinlichkeit} \end{matrix} \implies \begin{matrix} \text{Konvergenz in} \\ \text{Verteilung} \end{matrix} </math>.

Die Konvergenz in Wahrscheinlichkeit ist also ein mäßig starker Konvergenzbegriff. In den unten stehenden Abschnitten sind die Beziehungen zu den anderen Konvergenzarten genauer ausgeführt.

Konvergenz im p-ten Mittel

Aus der Konvergenz im p-ten Mittel folgt für <math> p \geq 1 </math> unmittelbar die Konvergenz in Wahrscheinlichkeit. Dazu wendet man die Markow-Ungleichung auf die Funktion <math> h=Y^p </math> an, die für <math> p > 0 </math> monoton wachsend ist, und die Zufallsvariable <math> Y= |X_n-X| </math> an. Dann folgt

<math> P(|X_n-X|\geq \epsilon) \leq \frac{1}{\epsilon^p} \operatorname{E}(|X_n-X|^p) </math>,

was im Grenzwert gegen Null geht. Die Umkehrung gilt im Allgemeinen nicht. Ein Beispiel hierfür ist: sind die Zufallsvariablen definiert durch

<math> P(X_n=e^{n \alpha})=e^{-n}=1-P(X_n=0) </math>

mit <math> \alpha > 0 </math>. Dann ist

<math> \operatorname{E}(|X_n|^1)=e^{n(\alpha-1)} \,\xrightarrow{n \to \infty}\, 0 </math>,

wenn <math> \alpha < 1 </math>. Also konvergiert die Folge für <math> \alpha \in (0,1) </math> im Mittel gegen 0. Für beliebiges <math> \epsilon \in (0,1) </math> ist aber

<math> P(|X_n|\geq \epsilon)= P(X_n=e^{n \alpha})=e^{-n} \,\xrightarrow{n \to \infty}\, 0 </math>. Also konvergiert die Folge für alle <math> \alpha </math> in Wahrscheinlichkeit gegen 0.

Ein Kriterium, unter dem die Konvergenz im p-ten Mittel aus der Konvergenz in Wahrscheinlichkeit gilt ist, dass eine Majorante <math> Y </math> mit <math> \operatorname{E} (|Y|^p) < \infty </math> existiert, so dass <math> P(|X_n| \leq Y) = 1</math> für alle <math> n </math> gilt. Konvergieren dann die <math> X_n </math> in Wahrscheinlichkeit gegen <math> X </math>, so konvergieren sie auch im p-ten Mittel gegen <math> X </math>. Allgemeiner lässt sich eine Verbindung zwischen der Konvergenz im p-ten Mittel und der Konvergenz in Wahrscheinlichkeit mittels des Konvergenzsatzes von Vitali und der gleichgradigen Integrierbarkeit im p-ten Mittel ziehen: Eine Folge konvergiert genau dann im p-ten Mittel, wenn sie gleichgradig integrierbar im p-ten Mittel ist und sie in Wahrscheinlichkeit konvergiert.

Fast sichere Konvergenz

Aus der fast sicheren Konvergenz folgt die Konvergenz in Wahrscheinlichkeit. Um dies zu sehen, definiert man die Mengen

<math> B_N:= \{ \omega \in \Omega \colon \forall n \geq N\ \vert X_n-X\vert < \epsilon \} \text{ und } B:=\bigcup_{N=1}^\infty B_N </math>.

Die <math> B_N </math> bilden eine monoton wachsende Mengenfolge, und die Menge <math> B </math> enthält die Menge

<math> A:=\{\omega \in \Omega \colon \lim_{n \to \infty}X_n=X\} </math>

der Stellen, an denen die Folge konvergiert. Nach Voraussetzung ist <math> P(A)=1 </math> und damit auch <math> P(B)=1 </math> und demnach <math> \lim_{N \to \infty} P(B_N)=1 </math>. Durch Komplementbildung folgt dann die Aussage.

Die Umkehrung gilt aber im Allgemeinen nicht. Ein Beispiel hierfür ist die Folge von unabhängigen Bernoulli-Verteilten Zufallsvariablen zum Parameter <math> \tfrac 1n </math>, also <math> X_n \sim \operatorname{Ber}_{1/n} </math>. Dann ist

<math> \lim_{n \to \infty}P(|X_n| \geq \epsilon)= 0 </math>

für alle <math> \epsilon > 0 </math> und somit konvergiert die Folge in Wahrscheinlichkeit gegen 0. Die Folge konvergiert aber nicht fast sicher, man zeigt dies mit dem hinreichenden Kriterium für fast sichere Konvergenz und dem Borel-Cantelli-Lemma.

Bedingungen, unter denen aus der Konvergenz in Wahrscheinlichkeit die fast sichere Konvergenz folgt, sind:

Die Konvergenzgeschwindigkeit der Konvergenz in Wahrscheinlichkeit ist ausreichend schnell, sprich, es gilt

<math> \sum_{i=1}^\infty P( \vert X_i-X \vert \geq \epsilon) < \infty </math>.

Der Grundraum <math> \Omega </math> lässt sich als abzählbare Vereinigung von μ-Atomen darstellen. Dies ist bei Wahrscheinlichkeitsräumen mit höchstens abzählbarer Grundmenge immer möglich.
Ist die Folge der Zufallsvariablen fast sicher streng monoton fallend und konvergiert in Wahrscheinlichkeit gegen 0, so konvergiert die Folge fast sicher gegen 0.

Allgemeiner konvergiert eine Folge in Wahrscheinlichkeit genau dann, wenn jede Teilfolge eine weitere, fast sicher konvergente Teilfolge besitzt. Insbesondere besitzt jede in Wahrscheinlichkeit konvergierende Folge eine fast sicher konvergente Teilfolge (man wähle in „<math>\Rightarrow</math>“ als Ausgangsteilfolge die ganze Folge).

Konvergenz in Verteilung

Aus Konvergenz in Wahrscheinlichkeit folgt nach dem Satz von Slutzky die Konvergenz in Verteilung, der Umkehrschluss gilt im Allgemeinen nicht. Ist beispielsweise die Zufallsvariable <math> X </math> Bernoulli-verteilt mit Parameter <math> p=q=\tfrac{1}{2} </math>, also

<math> P(X=1)=P(X=0)=\frac{1}{2} </math>,

und setzt man <math> X_n=1-X </math> für alle <math> n \in \N </math>, so konvergiert <math> X_n </math> in Verteilung gegen <math> X </math>, da sie dieselbe Verteilung haben. Es gilt aber immer <math> |X_n-X| =1</math>, die Zufallsvariablen können also nicht in Wahrscheinlichkeit konvergieren. Es existieren jedoch Kriterien, unter denen aus der Konvergenz in Verteilung die Konvergenz in Wahrscheinlichkeit folgt. Sind beispielsweise alle Zufallsvariablen <math> X_n </math> auf demselben Wahrscheinlichkeitsraum definiert und konvergieren in Verteilung gegen die Zufallsvariable <math> X </math>, die fast sicher konstant ist, so konvergieren die <math> X_n </math> auch in Wahrscheinlichkeit gegen <math> X </math>.

Literatur

Achim Klenke: Wahrscheinlichkeitstheorie. 3. Auflage. Springer-Verlag, Berlin Heidelberg 2013, ISBN 978-3-642-36017-6, doi:10.1007/978-3-642-36018-3.
Ulrich Krengel: Einführung in die Wahrscheinlichkeitstheorie und Statistik. Für Studium, Berufspraxis und Lehramt. 8. Auflage. Vieweg, Wiesbaden 2005, ISBN 3-8348-0063-5, doi:10.1007/978-3-663-09885-0.
Hans-Otto Georgii: Stochastik. Einführung in die Wahrscheinlichkeitstheorie und Statistik. 4. Auflage. Walter de Gruyter, Berlin 2009, ISBN 978-3-11-021526-7, doi:10.1515/9783110215274.
Christian Hesse: Angewandte Wahrscheinlichkeitstheorie. 1. Auflage. Vieweg, Wiesbaden 2003, ISBN 3-528-03183-2, doi:10.1007/978-3-663-01244-3.