Bernstein-Ungleichung (Stochastik)
Die Bernstein-Ungleichung ist eine Abschätzung aus der Wahrscheinlichkeitstheorie und wurde von Sergei Bernstein (1880–1968) bewiesen. Sie ist eine Erweiterung der Hoeffding-Ungleichung, deren Abschätzung durch eine zusätzliche Voraussetzung an die Varianz der Zufallsvariablen verbessert werden kann.
Die Ungleichung gilt für beliebig verteilte beschränkte Zufallsvariablen mit verschwindendem Erwartungswert und beschränkter Varianz.
Satz
Sei <math>(\Omega , \mathcal A , \mathcal P)</math> ein Wahrscheinlichkeitsraum. Seien <math>B, \mathcal T</math> und <math>\displaystyle{\sigma}</math> positive reelle Zahlen und <math>\displaystyle{n}</math> eine natürliche Zahl. <math> X_1 , \ldots, X_n : \Omega \rightarrow \mathbb R</math> seien unabhängig verteilte Zufallsvariablen mit <math> \textrm{E}X_i =0, \Vert X_i \Vert _{\infty} \leqslant B</math> und <math>\textrm{E}(X_i ^2)\leqslant \sigma ^2</math> für alle <math>i=1, \ldots, n</math>.
Dann gilt:
- <math>\textrm{P}\left[\frac{1}{n} \sum_{i=1}^n X_i\geqslant \sqrt{\frac{2\sigma ^2 \mathcal T}n}+\frac{2B\mathcal T}{3n}\right]\leqslant e^{-\mathcal T}</math>
Lemma
Für alle <math>\displaystyle{x > -1}</math> gilt:
- <math> x-(1+x)\ln (1+x)\leqslant -\frac{3x^2}{2(x+3)}</math>
Ein Beweis des Lemmas und ein ausführlicherer Beweis des Satzes befinden sich im Beweisarchiv.
Beweis (Satz)
Dieser Beweis folgt dem Ansatz aus "Support Vector Machines" (siehe Literatur).
Zur Vereinfachung definiere man <math>\epsilon=\frac{\sqrt{18 \mathcal T n \sigma ^2 + \mathcal T ^2 B^2}+\mathcal T B}{3n}</math>
Nach <math>\mathcal T</math> umgestellt, ergibt sich: <math>\mathcal T=\frac{3n \epsilon^2}{2\epsilon B+6 \sigma ^2}</math>
Nun wird die Ungleichung gezeigt. Man wende die Markow-Ungleichung an mit <math>X=\frac{1}{n} \sum_{i=1}^n X_i</math> und <math>f(\epsilon)=e^{t\epsilon n} </math> für ein <math>\displaystyle{t>0}</math> (t wird später noch speziell gewählt):
- <math>\textrm{P}\left[\frac{1}{n} \sum_{i=1}^n X_i\geqslant \sqrt{\frac{2\sigma ^2 \mathcal T}n}+\frac{2B\mathcal T}{3n}\right]\leqslant \textrm{P}\left[\frac{1}{n} \sum_{i=1}^n X_i\geqslant \epsilon\right] \leqslant e^{-t\epsilon n}\textrm{E} \left( \prod_{i=1}^{n} \exp(tX_i)\right)</math>
Da die Zufallsvariablen nach Voraussetzung unabhängig sind, können Produkt und Erwartungswert vertauscht werden. Aus der Exponentialfunktion bilde man eine unendliche Exponentialreihe. Diese ist durch die integrierbare Majorante <math>\displaystyle{e^{tB}}</math> beschränkt. Also können Erwartungswert und Summe vertauscht werden. Mit <math>X_i^0=1</math> und der Voraussetzung <math>\displaystyle{\textrm{E}X_i=0}</math> folgt:
- <math>e^{-t\epsilon n}\textrm{E} \left( \prod_{i=1}^{n} \exp(t X_i)\right)= e^{-t\epsilon n}\prod_{i=1}^{n} \textrm{E}\left(\sum_{k=0}^{\infty} \frac{t^k}{k!} X_i^k\right) =e^{-t\epsilon n}\prod_{i=1}^{n} \left(\sum_{k=0}^{\infty} \frac{t^k}{k!} \textrm{E}X_i^k\right)=e^{-t\epsilon n}\prod_{i=1}^{n} \left( 1+\sum_{k=2}^{\infty} \frac{t^k}{k!} \textrm{E}X_i^k\right) </math>
Mit der Abschätzung <math> \textrm{E}X_i^k \leqslant \textrm{E}X_i^2 B^{k-2} \leqslant \sigma ^2 B^{k-2} </math> folgt:
- <math> e^{-t\epsilon n}\prod_{i=1}^{n} \left( 1+\sum_{k=2}^{\infty} \frac{t^k}{k!} \textrm{E}X_i^k\right)\leqslant e^{-t\epsilon n}\prod_{i=1}^{n} \left( 1+\sum_{k=2}^{\infty} \frac{t^k}{k!} \sigma ^2 B^{k-2}\right)=e^{-t\epsilon n}\left( 1+\frac{\sigma ^2}{B^2}\sum_{k=2}^{\infty} \frac{(tB)^k}{k!}\right)^n</math>
Durch die Ungleichung <math>(1+x)^n\leqslant \exp(nx)</math> für <math>\displaystyle{x \geqslant 0}</math> erhält man mit <math> x=\frac{\sigma ^2}{B^2}(e^{tB}-tB-1)</math>:
- <math>e^{-t\epsilon n} \left( 1+\frac{\sigma ^2}{B^2}\sum_{k=2}^{\infty} \frac{(tB)^k}{k!}\right)^n=e^{-t\epsilon n}\left( 1+\frac{\sigma ^2}{B^2}(e^{tB}-tB-1)\right)^n\leqslant e^{-t\epsilon n}\exp \left(\frac{n \sigma ^2}{B^2}(e^{tB}-tB-1)\right) </math>
Man setze <math>t=\frac{1}{B}\ln (1+ \frac{\epsilon B}{\sigma})</math>:
- <math>e^{-t\epsilon n}\exp \left(\frac{n \sigma ^2}{B^2}(e^{tB}-tB-1)\right) =\exp \left[ \frac{n \sigma ^2}{B^2}\left(-\frac{\epsilon B}{\sigma ^2}\ln\left(1+\frac{\epsilon B}{\sigma ^2}\right)+\frac{\epsilon B}{\sigma ^2}- \ln \left(1+ \frac{\epsilon B}{\sigma ^2}\right)\right)\right] </math>
Aus dem Lemma (oben) folgt mit <math>x=\frac{\epsilon B}{\sigma^2}</math>.
- <math> \exp \left[\frac{n \sigma ^2}{B^2}\left(-\frac{\epsilon B}{\sigma ^2}\ln\left(1+\frac{\epsilon B}{\sigma ^2}\right)+\frac{\epsilon B}{\sigma ^2}- \ln \left(1+ \frac{\epsilon B}{\sigma ^2}\right)\right) \right]\leqslant \exp \left[-\frac{3n\epsilon ^2}{2\epsilon B+6\sigma ^2}\right]=e^{-\mathcal T}</math>
- <math>\Rightarrow \textrm{P}\left[\frac{1}{n} \sum_{i=1}^n X_i\geqslant \sqrt{\frac{2\sigma ^2 \mathcal T}n}+\frac{2B\mathcal T}{3n}\right]\leqslant e^{-\mathcal T} </math>
Anwendung
Problem 1
Angenommen <math>n, \, B</math> und <math>\displaystyle{\sigma}</math> sind bekannt.
Wie groß ist die Wahrscheinlichkeit höchstens, dass der Mittelwert einen gegebenen Wert k übersteigt?
Löse <math>k=\sqrt{\frac{2\sigma ^2 \mathcal T}n}+\frac{2B\mathcal T}{3n} </math> nach <math>\mathcal T</math> auf.
Die Wahrscheinlichkeit, dass der Mittelwert den Wert k übersteigt, ist höchstens <math>e^{- \mathcal T}</math>.
Problem 2
Weiterhin seien <math>\displaystyle{B}</math> und <math>\displaystyle{\sigma}</math> bekannt.
Es soll gelten: <math>\textrm{P}\left[\frac{1}{n} \sum_{i=1}^n X_i\geqslant k\right]\leqslant 0,1 </math>
Berechne k mit Hilfe der Bernstein-Ungleichung.
- <math>e^{- \mathcal T}=0{,}1 </math>
<math>\Rightarrow \mathcal T = \ln 10 </math>
<math>\Rightarrow k = \sqrt{\frac{2\sigma ^2 \ln 10}n}+\frac{2B\ln 10}{3n} </math>
Problem 3
Seien <math>\displaystyle{B}</math> und <math>\displaystyle{\sigma}</math> bekannt.
Wie viele Realisierungen werden mindestens benötigt, sodass für gegebene Werte <math>k</math> und <math>\mathcal T</math> gilt, dass
- <math>\textrm{P}\left[\frac{1}{n} \sum_{i=1}^n X_i\geqslant k\right]\leqslant e^{-\mathcal T}</math> ?
Man benötigt mindestens <math> n^*=\min \lbrace n\in \mathbb N \vert k \geqslant \sqrt{\frac{2\sigma ^2 \mathcal T}n}+\frac{2B\mathcal T}{3n} \rbrace </math> Realisierungen.
Beispiel
Als Zufallsvariable betrachte man eine Münze. Den i-ten Münzwurf bezeichnen wir mit <math>\displaystyle{X_i}</math>. Dabei gelte bei Kopf <math>\displaystyle{X_i=-1}</math> und bei Zahl <math>\displaystyle{X_i=1}</math>.
Wie groß ist die Wahrscheinlichkeit, dass der Mittelwert nach <math>\displaystyle{n}</math> Würfen den Wert <math>\frac{16}{75}</math> übersteigt?
Da die Wahrscheinlichkeit für Kopf und Zahl jeweils 50 % sind, ist der Erwartungswert 0. Da die Zufallsvariablen nur die Werte −1 und 1 annehmen können, kann <math>\displaystyle{B=1}</math> gewählt werden.
<math>X_i^2=1\Rightarrow\textrm{E}X_i^2=1</math>. Also kann <math>\displaystyle{\sigma =1}</math> gewählt werden.
Nun wähle noch <math>\displaystyle{\mathcal T=\frac{n}{50}}</math>. Dabei ist <math>\displaystyle{n}</math> die Anzahl der Münzwürfe. Nach der Bernstein-Ungleichung gilt dann:
- <math>\textrm{P}\left[\frac{1}{n} \sum_{i=1}^n X_i\geqslant \frac{16}{75}\right]\leqslant e^{-\frac{n}{50}} </math>
Also gilt zum Beispiel bei 50 Würfen:
- <math>\textrm{P}\left[\frac{1}{50} \sum_{i=1}^{50} X_i\geqslant \frac{16}{75}\right]\leqslant \frac{1}{e} </math>
Damit der Mittelwert <math>\frac{16}{75}</math> übersteigt, müsste man bei 50 Würfen 31-mal Kopf werfen.
- <math>\frac{31\cdot 1 + 19\cdot (-1)}{50}=\frac{12}{50}=\frac{18}{75}\geqslant\frac{16}{75} </math>
Das heißt, die Wahrscheinlichkeit, in 50 Würfen 31 Kopf zu erhalten, ist kleiner als <math>\frac{1}{e}\approx 0{,}367879441</math>
Siehe auch
Literatur
- Ingo Steinwart, Andreas Christmann: Support Vector Machines. Information Science and Statistics. 1. Auflage. Springer, Berlin 2008