Beta-Verteilung
Die Beta-Verteilung ist eine Familie stetiger Wahrscheinlichkeitsverteilungen über dem Intervall <math>(0,1)</math>, parametrisiert durch zwei Parameter, die häufig als p und q – oder auch als α und β – bezeichnet werden. In der bayesschen Statistik ist die Beta-Verteilung die konjugierte a-priori-Wahrscheinlichkeitsverteilung für die Bernoulli-, Binomial-, der negativen Binomial- und der geometrischen Verteilung.
Definition
Die Beta-Verteilung <math>\operatorname{Beta}(p,q)</math> ist definiert durch die Wahrscheinlichkeitsdichte
- <math>f(x) = \frac{1}{\Beta(p,q)} x^{p-1}(1-x)^{q-1}.</math>
Außerhalb des Intervalls <math>(0,1)</math> wird sie durch <math>f(x)=0</math> fortgesetzt. Für <math>p,q \geq 1</math> lässt sich <math>(0,1)</math> durch <math>[0,1]</math> ersetzen. Die Beta-Verteilung besitzt die reellen Parameter <math>p</math> und <math>q</math> (in den nebenstehenden Grafiken <math>\alpha</math> und <math>\beta</math>). Um ihre Normierbarkeit zu garantieren, wird <math>p,q > 0</math> (bzw. <math>\alpha,\beta > 0</math>) gefordert.
Der Vorfaktor <math>1/\Beta(p,q)</math> dient der Normierung. Der Ausdruck
- <math>\Beta(p,q) = \frac{\Gamma(p) \Gamma(q)}{\Gamma(p+q)} = \int_0^1 u^{p-1} (1-u)^{q-1}\, \mathrm{d}u</math>
steht für die Betafunktion, nach der die Verteilung benannt ist. Dabei bezeichnet <math>\Gamma</math> die Gammafunktion.
Die Verteilungsfunktion ist entsprechend
- <math> F(x)=\begin{cases}
0 &\text{falls}\; x\leq 0,\\ I_x(p,q) &\text{falls}\; 0 < x \leq 1,\\ 1 &\text{falls}\; x>1\\ \end{cases}</math> mit
- <math>I_x(p,q):=\frac{1}{\Beta(p,q)}\int_0^{x} u^{p-1} (1-u)^{q-1}\mathrm{d}u.</math>
Die Funktion <math>I_x(p,q)</math> heißt auch regularisierte unvollständige Betafunktion.
Eigenschaften
Erwartungswert
Der Erwartungswert berechnet sich zu
- <math>\operatorname{E}(X) = \frac{p}{p+q}</math>.
Modus
Der Modus, also die Maximalstelle der Dichtefunktion <math>f</math>, ist für <math>p>1</math>, <math>q>1</math>
- <math>\left(1+\frac{q-1}{p-1}\right)^{-1}=\frac{p-1}{p+q-2}</math>.
Varianz
Die Varianz ergibt sich zu
- <math>\operatorname{Var}(X) = \frac{pq}{(p+q+1)(p+q)^{2}}</math>.
Standardabweichung
Für die Standardabweichung ergibt sich
- <math>\sigma = \sqrt{\frac{pq}{(p+q+1)(p+q)^2}}</math>.
Variationskoeffizient
Aus Erwartungswert und Varianz erhält man unmittelbar den Variationskoeffizienten
- <math>\operatorname{VarK}(X) = \sqrt{\frac{q}{p(p+q+1)}}</math>.
Schiefe
Die Schiefe ergibt sich zu
- <math>\operatorname{v}(X) = \frac{2(q-p)\sqrt{p+q+1}}{(p+q+2)\sqrt{pq}}</math>.
Höhere Momente
Aus der momenterzeugenden Funktion ergibt sich für die k-ten Momente
- <math>\operatorname{E}(X^k) = \prod_{r=0}^{k-1} \frac{p+r}{p+q+r}</math>.
Symmetrie
Die Beta-Verteilung ist für <math>p=q</math> symmetrisch um <math>x=\frac{1}{2}</math> mit der Schiefe <math>\operatorname{v}(X)=0</math>.
Momenterzeugende Funktion
Die momenterzeugende Funktion einer betaverteilten Zufallsgröße lautet
- <math>M_X(t) = 1 + \sum_{n=1}^{\infty} \left( \prod_{k=0}^{n-1} \frac{p+k}{p+q+k} \right) \frac{t^n}{n!}</math>.
Mit der hypergeometrischen Funktion <math> _{1}F_1 </math> erhält man die Darstellung
- <math>M_X(t)= {}_{1}F_1(p;q;t) </math>.
Charakteristische Funktion
Analog zur momenterzeugenden Funktion erhält man die charakteristische Funktion
- <math> \varphi_X(t)= {}_{1}F_1(p;q;it) </math>.
Beziehungen zu anderen Verteilungen
Spezialfälle
- Für <math>p = q = 1</math> ergibt sich als Spezialfall die stetige Gleichverteilung.
- Für <math>p = q = \frac{1}{2}</math> ergibt sich als Spezialfall die Arcsin-Verteilung.
Grenzfälle
- Für <math>p \rightarrow 0</math> und konstantes <math>q</math> geht die Beta-Verteilung in eine Bernoulli-Verteilung <math>\operatorname{Ber}\left(0\right)</math> über (eine entsprechende Zufallsgröße hat dann fast sicher den Wert null). Dasselbe gilt für <math>q \rightarrow \infty</math> bei konstantem <math>p</math>.
- Für <math>q \rightarrow 0</math> und konstantes <math>p</math> geht die Beta-Verteilung in eine Bernoulli-Verteilung <math>\operatorname{Ber}\left(1\right)</math> über (eine entsprechende Zufallsgröße hat dann fast sicher den Wert eins). Dasselbe gilt für <math>p \rightarrow \infty</math> bei konstantem <math>q</math>.
Beides sieht man leicht durch entsprechende Grenzwertbildungen der Formeln für Erwartungswert und Varianz: Der Erwartungswert geht gegen null bzw. eins, die Varianz beide Male gegen null.
Beziehung zur Gammaverteilung
Wenn <math>X \sim \gamma(p_1,b)</math> und <math>Y \sim \gamma(p_2,b)</math> unabhängige gammaverteilte Zufallsvariablen sind mit den Parametern <math>p_1, b</math> bzw. <math>p_2, b</math>, dann ist die Größe <math>\tfrac{X}{X+Y}</math> betaverteilt mit Parametern <math>p_1</math> und <math>p_2</math>, kurz
- <math>\operatorname{Beta}(p_1,p_2) \sim \frac{\gamma(p_1,b)}{\gamma(p_1,b)+\gamma(p_2,b)}.</math>
Beziehung zur stetigen Gleichverteilung
Sind <math>X_1, X_2, \dotsc, X_n</math> unabhängige auf <math>[0,1]</math> stetig gleich verteilte Zufallsvariable, dann sind die Ordnungsstatistiken <math>X_{(1)}, X_{(2)}, \dotsc, X_{(n)}</math> betaverteilt. Genauer gilt
- <math>X_{(k)} \sim \operatorname{Beta}(k, n-k+1)</math>
für <math>k = 1,\dotsc,n</math>.
Mischverteilungen
Eine Binomialverteilung, deren Parameter <math> p </math> betaverteilt ist, nennt man Beta-Binomialverteilung. Dies ist ein spezieller Fall einer Mischverteilung.
Beispiel
{{#if: Bestimmtheitsmaß|{{#ifexist:Bestimmtheitsmaß|
|{{#if: |{{#ifexist:{{{2}}}|
|{{#if: |{{#ifexist:{{{3}}}|
|}}|}}|}}|}}|}}|Einbindungsfehler: Die Vorlage Hauptartikel benötigt immer mindestens ein Argument.}}
Die Beta-Verteilung kann aus zwei Gammaverteilungen bestimmt werden: Der Quotient <math>X = U/(U+V)</math> aus den stochastisch unabhängigen Zufallsvariablen <math>U</math> und <math>V</math>, die beide gammaverteilt sind mit den Parametern <math>b</math> und <math>p_u</math> bzw. <math>p_v</math>, ist betaverteilt mit den Parametern <math>p_u</math> und <math>p_v</math>. <math>U</math> und <math>V</math> lassen sich als Chi-Quadrat-Verteilungen mit <math>2p_u</math> bzw. <math>2p_v</math> Freiheitsgraden interpretieren.
Mit Hilfe der linearen Regression wird eine geschätzte Regressionsgerade <math>\hat y =\hat \beta_0 + \hat \beta_1 x_i</math> durch eine „Punktwolke“ mit <math>n</math> Wertepaaren <math>\{x_i;y_i\}_{i=1,\dots ,n}</math> zweier statistischer Merkmale <math>X</math> und <math>Y</math> gelegt, und zwar so, dass die Quadratsumme der senkrechten Abstände der <math>y_i</math>-Werte von der Geraden <math>\hat y_i</math> minimiert wird.
Die Streuung der Schätzwerte <math>\hat{y}_i</math> um ihren Mittelwert <math>\overline{\hat{y}}=\overline{y}</math> kann durch <math>\textstyle\text{SSE}\equiv\sum\nolimits_{i=1}^n (\hat{y}_i- \overline{y})^2</math> gemessen werden und die Streuung der Messwerte <math>y_i</math> um ihren Mittelwert kann durch <math>\textstyle\text{SST}\equiv\sum\nolimits_{i=1}^n(y_i-\overline{y})^2</math> gemessen werden. Erstere stellt die „(durch die Regression) erklärte Quadratsumme“ (sum of squares explained, kurz: SSE) und letztere stellt die „totale Quadratsumme“ (sum of squares total, kurz: SST) dar. Der Quotient dieser beiden Größen ist das Bestimmtheitsmaß:
- <math>\mathit{R}^2 \equiv \frac{\text{SSE}}{\text{SST}}</math>.
Die „(durch die Regression) nicht erklärte Quadratsumme“ bzw. die „Residuenquadratsumme“ (residual sum of squares, kurz SSR) ist durch <math>\textstyle\text{SSR}\equiv\sum\nolimits_{i=1}^n(y_i-\hat{y}_i)^2</math> gegeben. Durch die Quadratsummenzerlegung <math>\text{TSS}=\text{ESS}+\text{RSS}</math> lässt sich das Bestimmtheitsmaß auch darstellen als
- <math>\mathit{R}^2 = \frac{\text{SSE}}{\text{SSE}+\text{SSR}}</math>.
Es ist also betaverteilt. Da das Bestimmtheitsmaß das Quadrat des Korrelationskoeffizienten von <math>x</math> und <math>y</math> darstellt (<math>R^2= r^2</math>), ist auch das Quadrat des Korrelationskoeffizienten betaverteilt. Allerdings kann die Verteilung des Bestimmtheitsmaßes beim globalen F-Test durch die F-Verteilung angegeben werden, die tabelliert vorliegt.
Verallgemeinerung: Beta-Verteilung auf (a,b)
Definition
Die allgemeine Beta-Verteilung ist definiert durch die Wahrscheinlichkeitsdichte
- <math>f(x) = \frac{1}{B(a,b,p,q)} (x-a)^{p-1}(b-x)^{q-1}, </math>
wobei <math>a</math> und <math>b</math> die obere und untere Grenze des Intervalls sind. Entsprechend ergibt sich die Berechnung von <math>B</math> zu
- <math>B(a,b,p,q)=\int_a^b (u-a)^{p-1} (b-u)^{q-1}\mathrm{d}u = \frac{\Gamma(p)\Gamma(q)}{\Gamma(p+q)}(b-a)^{p+q-1}.</math>
Eigenschaften
Ist <math>X</math> betaverteilt auf dem Intervall <math>(0,1)</math> mit Parametern <math>p</math>, <math>q</math>, dann ist
- <math>Y = (b-a)X + a</math>
betaverteilt auf dem Intervall <math>(a,b)</math> mit den gleichen Parametern <math>p</math>, <math>q</math>. Ist umgekehrt <math>Y</math> betaverteilt auf <math>(a,b)</math>, dann ist
- <math>X = \frac{Y-a}{b-a}</math>
betaverteilt auf <math>(0,1)</math>.
Beispiel
Im Dreieckstest werden drei Proben im gleichseitigen Dreieck angeordnet, wobei eine Ecke des gedachten Dreiecks nach oben zeigt. Zwei der drei Proben gehören zum Produkt A und eine Probe gehört zum Produkt B oder umgekehrt. Die Aufgabe des Probanden besteht nun darin, dasjenige Produkt zu finden, das nur einmal vorkommt. Die Wahrscheinlichkeit durch bloßes Raten die richtige Antwort zu geben beträgt <math>\tfrac{1}{3}</math>.
Die Erfolgswahrscheinlichkeiten variieren je nach sensorischen Fähigkeiten. Unter der Annahme, dass kein Proband absichtlich eine falsche Antwort gibt, liegt die Erfolgswahrscheinlichkeit bei niemandem unter <math>\tfrac{1}{3}</math>. Bei Feinschmeckern oder großen Geschmacksunterschieden kann diese theoretisch bis auf 100 % ansteigen. Im Folgenden wird für beliebige Rate-Erfolgswahrscheinlichkeiten <math>c</math> mit <math>0<c<1</math> die Beta-Verteilung auf <math>(c,1)</math> hergeleitet.<ref>Brockhoff, Per Bruun. "The statistical power of replications in difference tests." Food Quality and Preference 14.5 (2003): 405-417.</ref> Aus den eben genannten Gründen modelliert diese Wahrscheinlichkeitsdichte die Erfolgswahrscheinlichkeiten der Probanden realistischer als eine Beta-Verteilung auf <math>(0,1)</math>.
Die Erfolgswahrscheinlichkeiten <math>\pi_{i}</math> der einzelnen Probanden <math>i=1, \dots, n</math> seien zunächst betaverteilt auf <math>(0,1)</math> mit Parametern <math>\alpha</math> und <math>\beta</math>. Die korrigierten Erfolgswahrscheinlichkeiten auf <math>(c,1)</math> ergeben sich aus <math>p_{i}=c+(1-c)\pi_{i}</math>. Die Wahrscheinlichkeitsdichte von <math>p_{i}</math> lässt sich über den Transformationssatz für Dichten bestimmen. Die Beta-Verteilung von <math>\pi_{i}</math> hat eine positive Dichte im Intervall <math>(0,1)</math>. Die Transformation <math>u\colon (0,1)\rightarrow(c,1)</math> mit <math>u(\pi)=c+(1-c)\pi=p</math> ist ein Diffeomorphismus. Daraus erhält man die Umkehrfunktion <math>u^{-1}(p)=\frac{p-c}{1-c}</math>. Für die gesuchte Dichtefunktion von <math>p</math> erhält man
- <math>f_{p}(p)=f_{\pi}(u^{-1}(p))\left|\frac{\partial}{\partial p}u^{-1}(p)\right|=f_{\pi}\left(\frac{p-c}{1-c}\right)\left|\frac{1}{1-c}\right|=\frac{1}{1-c}f_{\pi}\left(\frac{p-c}{1-c}|\alpha,\beta\right)</math>.
Diese Wahrscheinlichkeitsdichte von <math>p</math> auf <math>(c,1)</math> wird in Abhängigkeit von der Wahrscheinlichkeitsdichte von <math>\pi</math> auf <math>(0,1)</math> dargestellt. In der nebenstehenden Grafik ist beispielhaft eine Beta-Verteilung auf <math>(\tfrac{1}{3}, 1)</math> mit Parametern <math>\alpha=0{,}5</math> und <math>\beta=4</math> eingezeichnet. Der Erwartungswert beträgt <math>40{,}7\,\%</math>. Die durchschnittliche Erfolgswahrscheinlichkeit liegt damit <math>7{,}4\,\%</math> über der Rate-Erfolgswahrscheinlichkeit von <math>33{,}3\,\%</math>.
Einzelnachweise
<references />
Weblinks
- Sigrid Markstein: Mathematische und rechentechnische Aufbereitung der Betaverteilung 1. Art für technologische Untersuchungen.
<templatestyles src="BoxenVerschmelzen/styles.css" />
{{#if:Navigationsleiste DUWahrscheinlichkeitsverteilungen |{{safesubst:#ifeq:0|10| {{#switch: Beta-Verteilung |Navigationsleiste|NaviBlock|0=|#default= Vorlage:Templatetransclusioncheck Vorlage:Dokumentation/ruler }}}}Vorlage:Klappleiste/Anfang {{#if:
|Diskrete univariate Verteilungen für endliche Mengen:
Benford |
Bernoulli |
beta-binomial |
binomial |
Dirac |
diskret uniform |
empirisch |
hypergeometrisch |
kategorial |
negativ hypergeometrisch |
Rademacher |
verallgemeinert binomial |
Zipf |
Zipf-Mandelbrot |
Zweipunkt
Diskrete univariate Verteilungen für unendliche Mengen:
Boltzmann |
Conway-Maxwell-Poisson |
discrete-Phase-Type |
erweitert negativ binomial |
Gauss-Kuzmin |
gemischt Poisson |
geometrisch |
logarithmisch |
negativ binomial |
parabolisch-fraktal |
Poisson |
Skellam |
verallgemeinert Poisson |
Yule-Simon |
Zeta
|
Diskrete univariate Verteilungen für endliche Mengen:
Benford |
Bernoulli |
beta-binomial |
binomial |
Dirac |
diskret uniform |
empirisch |
hypergeometrisch |
kategorial |
negativ hypergeometrisch |
Rademacher |
verallgemeinert binomial |
Zipf |
Zipf-Mandelbrot |
Zweipunkt
Diskrete univariate Verteilungen für unendliche Mengen:
Boltzmann |
Conway-Maxwell-Poisson |
discrete-Phase-Type |
erweitert negativ binomial |
Gauss-Kuzmin |
gemischt Poisson |
geometrisch |
logarithmisch |
negativ binomial |
parabolisch-fraktal |
Poisson |
Skellam |
verallgemeinert Poisson |
Yule-Simon |
Zeta
}}
Vorlage:Klappleiste/Ende}}{{#if:Navigationsleiste KUWahrscheinlichkeitsverteilungen
|{{safesubst:#ifeq:0|10| {{#switch: Beta-Verteilung |Navigationsleiste|NaviBlock|0=|#default=
Vorlage:Templatetransclusioncheck
Vorlage:Dokumentation/ruler
}}}}Vorlage:Klappleiste/Anfang
{{#if:
Kontinuierliche univariate Verteilungen mit kompaktem Intervall:
Beta |
Cantor |
Kumaraswamy |
raised Cosine |
Dreieck |
Trapez |
U-quadratisch |
stetig uniform |
Wigner-Halbkreis
Kontinuierliche univariate Verteilungen mit halboffenem Intervall:
Beta prime |
Bose-Einstein |
Burr |
Chi |
Chi-Quadrat |
Coxian |
Erlang |
Exponential |
Extremwert |
F |
Fermi-Dirac |
Folded normal |
Fréchet |
Gamma |
Gamma-Gamma |
verallgemeinert invers Gauß |
halblogistisch |
halbnormal |
Hartman-Watson |
Hotellings T-Quadrat |
hyper-exponentiale |
hypoexponential |
invers Chi-Quadrat |
scale-invers Chi-Quadrat |
Invers Normal |
Invers Gamma |
Kolmogorow-Verteilung |
Lévy |
log-normal |
log-logistisch |
Maxwell-Boltzmann |
Maxwell-Speed |
Nakagami |
nichtzentriert Chi-Quadrat |
Pareto |
Phase-Type |
Rayleigh |
relativistisch Breit-Wigner |
Rice |
Rosin-Rammler |
shifted Gompertz |
truncated normal |
Type-2-Gumbel |
Weibull |
Wilks’ Lambda
Kontinuierliche univariate Verteilungen mit unbeschränktem Intervall:
Cauchy |
Extremwert |
exponential Power |
Fishers z |
Fisher-Tippett (Gumbel) |
generalized hyperbolic |
Hyperbolic-secant |
Landau |
Laplace |
alpha-stabil |
logistisch |
normal (Gauß) |
normal-invers Gauß’sch |
Skew-normal |
Studentsche t |
Type-1-Gumbel |
Variance-Gamma |
Voigt
|
Kontinuierliche univariate Verteilungen mit kompaktem Intervall:
Beta |
Cantor |
Kumaraswamy |
raised Cosine |
Dreieck |
Trapez |
U-quadratisch |
stetig uniform |
Wigner-Halbkreis
Kontinuierliche univariate Verteilungen mit halboffenem Intervall:
Beta prime |
Bose-Einstein |
Burr |
Chi |
Chi-Quadrat |
Coxian |
Erlang |
Exponential |
Extremwert |
F |
Fermi-Dirac |
Folded normal |
Fréchet |
Gamma |
Gamma-Gamma |
verallgemeinert invers Gauß |
halblogistisch |
halbnormal |
Hartman-Watson |
Hotellings T-Quadrat |
hyper-exponentiale |
hypoexponential |
invers Chi-Quadrat |
scale-invers Chi-Quadrat |
Invers Normal |
Invers Gamma |
Kolmogorow-Verteilung |
Lévy |
log-normal |
log-logistisch |
Maxwell-Boltzmann |
Maxwell-Speed |
Nakagami |
nichtzentriert Chi-Quadrat |
Pareto |
Phase-Type |
Rayleigh |
relativistisch Breit-Wigner |
Rice |
Rosin-Rammler |
shifted Gompertz |
truncated normal |
Type-2-Gumbel |
Weibull |
Wilks’ Lambda
Kontinuierliche univariate Verteilungen mit unbeschränktem Intervall:
Cauchy |
Extremwert |
exponential Power |
Fishers z |
Fisher-Tippett (Gumbel) |
generalized hyperbolic |
Hyperbolic-secant |
Landau |
Laplace |
alpha-stabil |
logistisch |
normal (Gauß) |
normal-invers Gauß’sch |
Skew-normal |
Studentsche t |
Type-1-Gumbel |
Variance-Gamma |
Voigt
}}
Vorlage:Klappleiste/Ende}}{{#if:Navigationsleiste MUWahrscheinlichkeitsverteilungen
|{{safesubst:#ifeq:0|10| {{#switch: Beta-Verteilung |Navigationsleiste|NaviBlock|0=|#default=
Vorlage:Templatetransclusioncheck
Vorlage:Dokumentation/ruler
}}}}Vorlage:Klappleiste/Anfang
{{#if:
Diskrete multivariate Verteilungen:
Dirichlet compound multinomial |
Ewens |
gemischt Multinomial |
multinomial |
multivariat hypergeometrisch |
multivariat Poisson |
negativmultinomial |
Pólya/Eggenberger |
polyhypergeometrisch
Kontinuierliche multivariate Verteilungen:
Dirichlet |
GEM |
generalized Dirichlet |
multivariat normal |
multivariat Student |
normalskaliert invers Gamma |
Normal-Gamma |
Poisson-Dirichlet
Multivariate Matrixverteilungen:
Gleichverteilung auf der Stiefel-Mannigfaltigkeit |
Invers Wishart |
Matrix Beta |
Matrix Gamma |
Matrix invers Beta |
Matrix invers Gamma |
Matrix Normal |
Matrix Student-t |
Matrix-Von-Mises-Fisher-Verteilung |
Normal-invers-Wishart |
Normal-Wishart |
Wishart
|
Diskrete multivariate Verteilungen:
Dirichlet compound multinomial |
Ewens |
gemischt Multinomial |
multinomial |
multivariat hypergeometrisch |
multivariat Poisson |
negativmultinomial |
Pólya/Eggenberger |
polyhypergeometrisch
Kontinuierliche multivariate Verteilungen:
Dirichlet |
GEM |
generalized Dirichlet |
multivariat normal |
multivariat Student |
normalskaliert invers Gamma |
Normal-Gamma |
Poisson-Dirichlet
Multivariate Matrixverteilungen:
Gleichverteilung auf der Stiefel-Mannigfaltigkeit |
Invers Wishart |
Matrix Beta |
Matrix Gamma |
Matrix invers Beta |
Matrix invers Gamma |
Matrix Normal |
Matrix Student-t |
Matrix-Von-Mises-Fisher-Verteilung |
Normal-invers-Wishart |
Normal-Wishart |
Wishart
}}