Hoeffding-Ungleichung

In der Wahrscheinlichkeitstheorie beschreibt die Hoeffding-Ungleichung (nach Wassilij Hoeffding) eine obere Schranke für die maximale Wahrscheinlichkeit, dass eine Summe von stochastisch unabhängigen und beschränkten Zufallsvariablen stärker als eine Konstante von ihrem Erwartungswert abweicht.

Die Hoeffding-Ungleichung wird auch die additive Chernoff-Ungleichung genannt und ist ein Spezialfall der Bernstein-Ungleichung.

Satz

Seien <math>X_1, X_2, \ldots, X_n</math> stochastisch unabhängige Zufallsvariablen, so dass fast sicher <math>a_i \leq X_i-\textrm{E}[X_i] \leq b_i</math> gilt. Sei ferner <math>c</math> eine positive, reellwertige Konstante. Dann gilt:

<math>\Pr\left[\sum_{i=1}^n (X_i-\textrm{E}[X_i]) \geq c\right] \leq \textrm{exp}\left(\frac{-2c^2}{\sum_{i=1}^n(b_i-a_i)^2}\right).</math>

Beweis

Dieser Beweis folgt der Darstellung von D. Pollard, siehe auch Lutz Dümbgens Skriptum (siehe Literatur).

Betrachte zur Vereinfachung der Schreibweise die Zufallsvariablen <math>Y_i = X_i - \textrm{E}[X_i]</math> mit <math>\textrm{E}[Y_i]=0</math> und ferner für ein zunächst beliebiges <math>z>0</math> die auf den reellen Zahlen monoton wachsende Abbildung <math>x \mapsto \exp(zx)</math>. Nach der Tschebyschow-Ungleichung gilt dann:

<math>

\Pr\left[\sum Y_i \geq c\right] \leq \frac{\textrm{E}[\exp\left(z \sum Y_i\right)]}{\exp(zc)} = \exp(-zc) \cdot \prod \textrm{E}\left[\exp(z Y_i)\right]. </math> Wegen der Konvexität der Exponentialfunktion ist

<math>

\exp(z Y_i) = \exp\left( \frac{b_i-Y_i}{b_i-a_i}za_i + \frac{Y_i-a_i}{b_i-a_i}zb_i \right) \leq \frac{b_i-Y_i}{b_i-a_i}\exp(za_i) + \frac{Y_i-a_i}{b_i-a_i}\exp(zb_i), </math> und mit <math>\textrm{E}[Y_i]=0</math> folgt, dass

<math>

\textrm{E}\left[\exp(z Y_i)\right] \leq \frac{b_i}{b_i-a_i}\exp(za_i) + \frac{-a_i}{b_i-a_i}\exp(zb_i) = e^{-u_i\lambda_i} \left(\left(1-\lambda_i\right)+\lambda_i e^{u_i}\right) </math> für die Konstanten <math>\lambda_i = \frac{-a_i}{b_i-a_i}</math> und <math>u_i = z(b_i-a_i)</math>. Betrachtet man den Logarithmus der rechten Seite dieses Terms

<math>L(u,\lambda) = -u\lambda + \log\left(\left(1-\lambda\right)+\lambda e^u\right),</math>

so kann man mittels Kurvendiskussion und Taylor-Reihenentwicklung zeigen, dass stets <math>L(u,\lambda) \leq \frac{u^2}{8}</math> gilt. Setzt man diesen Wert auf Grund der Monotonie der Exponentialfunktion als obere Schranke in die erste Ungleichung wieder ein, so erhält man

<math>

\Pr\left[\sum Y_i \geq c\right] \leq \exp(-zc) \cdot \prod \exp\biggl(\frac{u_i^2}{8}\biggr) = \exp\left( -zc + \frac{z^2}{8} \sum (b_i-a_i)^2 \right), </math> was bei einer Wahl von <math>z=\tfrac{4c}{\sum(b_i-a_i)^2}</math> zur zu beweisenden Behauptung führt.

Beispiel

Betrachtet wird die Fragestellung: Wie wahrscheinlich ist es, bei hundertmaligem Würfeln eine Augensumme von wenigstens 500 zu erreichen?

Diese Frage kann exakt mit Hilfe der Verteilung der Summenvariablen <math>S = \sum_{i=1}^{100} X_i</math> beantwortet werden, wobei <math>X_1,\ldots,X_n</math> stochastisch unabhängige und identisch verteilte Zufallsvariablen mit der Verteilung <math>\Pr(X_1=k) = \frac{1}{6}</math> für <math>k=1,\ldots 6</math> sind. Dabei gilt <math>\textrm{E}[X_1] = 3{,}5</math>. Für die Berechnung der gesuchten Wahrscheinlichkeit <math>\Pr(S \geq 500)</math> ergibt sich ein gewisser Aufwand durch kombinatorische und numerische Probleme, weswegen auch Approximationen oder Abschätzungen mit Hilfe einer Ungleichung von Interesse sein können.
Eine approximative Lösung erhält man beispielsweise, indem man die Wahrscheinlichkeitsverteilung der Zufallsvariablen <math>S</math> durch eine Normalverteilung mit demselben Erwartungswert und derselben Varianz approximiert. Die Verteilung der Zufallsvariablen <math>S</math> ist in diesem Fall aufgrund des zentralen Grenzwertsatzes gut durch eine Normalverteilung approximierbar.
Häufig genügt für viele Anwendungen bei kleinen Wahrscheinlichkeiten die Angabe einer Oberschranke für die gesuchte Wahrscheinlichkeit. Im Beispiel ergibt sich mit der Hoeffding-Ungleichung:

<math>

\Pr[S \geq 500] = \Pr\left[\sum_{i=1}^{100}X_i - 350 \geq 150\right] = \Pr\left[\sum_{i=1}^{100} (X_i - 3{,}5) \geq 150\right] = \Pr\left[\sum_{i=1}^{100} (X_i - \textrm{E}[X_i]) \geq 150 \right] </math>

<math>\leq \exp\left(\frac{-2 \cdot 150^2}{\sum_{i=1}^{100}(2{,}5 + 2{,}5)^2}\right)

= \exp\left(\frac{-45000}{100 \cdot 25}\right)

= \exp\left(-18\right)

\approx 1{,}523 \cdot 10^{-8} </math>

Somit ist <math>e^{-18}</math> eine Oberschranke für die mit der Frage gesuchte Wahrscheinlichkeit, die erheblich kleiner als die angegebene Oberschranke sein kann.

Literatur

Wassily Hoeffding, „Probability Inequalities for Sums of Bounded Random Variables“, Journal of the American Statistical Association, Vol. 58, 1963, pp. 13–30.
David Pollard, „Convergence of Stochastic Processes“, Springer Verlag, 1984.
Lutz Dümbgen, Empirische Prozesse, Universität Bern, 2010.
Otto Kerner, Joseph Maurer, Jutta Steffens, Thomas Thode und Rudolf Voller, Vieweg Mathematik Lexikon, zweite überarbeitete Auflage, Vieweg Verlag, 1993.