imported>Mathze: unübliche Bezeichnung entfernt (siehe Diskussionsseite)

2026-04-13T06:24:39Z

unübliche Bezeichnung entfernt (siehe Diskussionsseite)

Neue Seite

Die '''Maximum-Likelihood-Methode''', kurz '''ML-Methode''', auch '''Maximum-Likelihood-Schätzung''' (''maximum likelihood'' {{enS}} für ''größte Plausibilität'', daher auch ''Methode der größten Plausibilität''<ref>Alice Zheng, Amanda Casari: [https://books.google.de/books?id=O5iSDwAAQBAJ&pg=PT45&dq=Methode+der+gr%C3%B6%C3%9Ften+Plausibilit%C3%A4t+2019&hl=de&sa=X&ved=0ahUKEwjKsamw9r7iAhUOWZoKHb_QAjIQ6AEIKDAA#v=onepage&q=Methode%20der%20gr%C3%B6%C3%9Ften%20Plausibilit%C3%A4t%202019&f=false ''Merkmalskonstruktion für Machine Learning: Prinzipien und Techniken der Datenaufbereitung'']</ref>), '''Größte-Dichte-Methode''' oder '''Methode der größten Dichte''' bezeichnet in der [[Statistik]] ein parametrisches [[Statistisches Schätzverfahren|Schätzverfahren]]. Dabei wird – vereinfacht ausgedrückt – derjenige Parameter als Schätzung ausgewählt, gemäß dessen Verteilung die [[Realisierung (Stochastik)|Realisierung]] der beobachteten Daten am [[Plausibilität|plausibelsten]] erscheint.

Im Falle einer von einem Parameter <math>\vartheta</math> abhängigen [[Wahrscheinlichkeitsfunktion]]
:<math>\rho\colon \Omega \to [0,1], \quad x \mapsto \rho(x \mid \vartheta)</math>
wird zu einem beobachteten Ausgang <math>x</math> also die folgende [[Likelihood-Funktion]] für verschiedene Parameter betrachtet:
:<math>L\colon \Theta \to [0,1], \quad \vartheta \mapsto \rho(x \mid \vartheta).</math>
Dabei bezeichnet <math>\Omega</math> den [[Ergebnisraum]] und <math>\Theta</math> den Parameterraum (Raum aller möglichen Parameterwerte).

Für einen bestimmten Wert des Parameters <math>\vartheta</math> entspricht die Likelihood-Funktion (Wahrscheinlichkeitsfunktion) der Wahrscheinlichkeit, das Ergebnis <math>x</math> zu beobachten. Als Maximum-Likelihood-Schätzung wird entsprechend dasjenige <math>\vartheta</math> bezeichnet, für das die [[Likelihood-Funktion]] maximal wird. Im Falle stetiger Verteilungen gilt eine analoge Definition, nur wird die Wahrscheinlichkeitsfunktion in dieser Situation durch die zugehörige [[Dichtefunktion]] ersetzt. Allgemein lassen sich Maximum-Likelihood-Methoden für beliebige [[Statistisches Modell|statistische Modelle]] definieren, solange die entsprechende Verteilungsklasse eine [[dominierte Verteilungsklasse]] ist.

== Motivation ==
Einfach gesprochen bedeutet die Maximum-Likelihood-Methode Folgendes: Wenn man statistische Untersuchungen durchführt, untersucht man in der Regel eine [[Stichprobe]] mit einer bestimmten Anzahl von Objekten einer [[Grundgesamtheit]]. Da die Untersuchung der gesamten Grundgesamtheit in den meisten Fällen hinsichtlich der Kosten und des Aufwandes unmöglich ist, sind die wichtigen Kennwerte der Grundgesamtheit unbekannt. Solche Kennwerte sind z. B. der [[Erwartungswert]] oder die [[Standardabweichung (Stochastik)|Standardabweichung]]. Da man diese Kennwerte jedoch zu den statistischen Rechnungen, die man durchführen möchte, benötigt, muss man die unbekannten Kennwerte der Grundgesamtheit anhand der bekannten Stichprobe schätzen.

Die Maximum-Likelihood-Methode wird nun in Situationen benutzt, in denen die Elemente der Grundgesamtheit als Realisierung eines Zufallsexperiments interpretiert werden können, das von einem unbekannten Parameter abhängt, bis auf diesen aber eindeutig bestimmt und bekannt ist. Entsprechend hängen die interessanten Kennwerte ausschließlich von diesem unbekannten Parameter ab, lassen sich also als Funktion von ihm darstellen. Als Maximum-Likelihood-Schätzer wird nun derjenige Parameter bezeichnet, der die Wahrscheinlichkeit, die Stichprobe zu erhalten, maximiert.

Die Maximum-Likelihood-Methode ist aufgrund ihrer Vorteile gegenüber anderen Schätzverfahren (beispielsweise die [[Methode der kleinsten Quadrate]] und die [[Momentenmethode]]) das wichtigste Prinzip zur Gewinnung von Schätzfunktionen für die [[Parameter (Statistik)|Parameter]] einer Verteilung.

== Eine heuristische Herleitung ==
Es wird nun folgendes Beispiel betrachtet: Es gibt eine [[Urnenmodell|Urne]] mit einer großen Anzahl von Kugeln, die entweder schwarz oder rot sind. Da die Untersuchung aller Kugeln praktisch unmöglich erscheint, wird eine Stichprobe von zehn Kugeln (etwa mit Zurücklegen) gezogen. In dieser Stichprobe seien nun eine rote und neun schwarze Kugeln. Ausgehend von dieser einen Stichprobe soll nun die wahre Wahrscheinlichkeit, eine rote Kugel in der Gesamtpopulation (Urne) zu ziehen, geschätzt werden.
[[Datei:MLfunction.svg|mini|hochkant=1.4|Drei Likelihood-Funktionen für Parameter ''p'' einer Binomialverteilung für verschiedene Anzahlen ''k'' von roten Kugeln in einer Stichprobe von ''n''=10 Kugeln]]

Die Maximum-Likelihood-Methode versucht diese Schätzung nun so zu erstellen, dass das Auftreten unserer Stichprobe damit am wahrscheinlichsten wird. Dazu könnte man ausprobieren, bei welchem Schätzwert die Wahrscheinlichkeit für unser Stichprobenergebnis maximal wird.

Probiert man beispielsweise <math>0{,}2</math> als Schätzwert für die Wahrscheinlichkeit <math>p</math> einer roten Kugel, so kann man mit Hilfe der [[Binomialverteilung]] <math>B(10; 0{,}2; 1)</math> die Wahrscheinlichkeit des beobachteten Ergebnisses (genau eine rote Kugel) berechnen: das Ergebnis ist <math>0{,}2684</math>.

Probiert man es mit <math>0{,}1</math> als Schätzwert für <math>p</math>, berechnet also <math>B(10; 0{,}1; 1)</math> für die Wahrscheinlichkeit, dass genau eine rote Kugel gezogen wird, ist das Ergebnis <math>0{,}3874</math>.

Mit <math>0{,}3874</math> für <math>p= 0{,}1</math> ist die Wahrscheinlichkeit, dass das beobachtete Ergebnis (genau eine rote Kugel) in der Stichprobe durch eine Populationswahrscheinlichkeit für rote Kugeln von <math>p= 0{,}1</math> verursacht wurde, somit größer als bei <math>p = 0{,}2</math>. Damit wäre nach der Maximum-Likelihood-Methode <math>0{,}1</math> ein besserer Schätzwert für den Anteil <math>p</math> roter Kugeln in der Grundgesamtheit. Es erweist sich, dass für <math>p = 0{,}1</math> (siehe rote Linie für <math>k=1</math> in der Grafik) die Wahrscheinlichkeit des beobachteten Ergebnisses am größten ist. Deshalb ist <math>0{,}1</math> die Maximum-Likelihood-Schätzung von <math>p</math>. Man kann zeigen, dass sich allgemein bei <math>k</math> roten Kugeln in der Stichprobe <math>k/10</math> als Maximum-Likelihood-Schätzung von <math>p</math> ergibt.

== Definition ==
Bei der Maximum-Likelihood-Methode wird von einer [[Zufallsvariable]]n <math>X</math> ausgegangen, deren [[Wahrscheinlichkeitsdichtefunktion|Dichte]]-
bzw. [[Wahrscheinlichkeitsfunktion]] <math>f</math> von einem unbekannten [[Parameter (Statistik)|Parameter]] <math>\vartheta</math> abhängt. Liegt eine einfache [[Zufallsstichprobe]] mit <math>n</math> [[Realisierung (Stochastik)|Realisierungen]] <math>x_1, \dotsc, x_n</math> von <math>n</math> [[Unabhängig und identisch verteilte Zufallsvariablen|unabhängig und identisch verteilten Zufallsvariablen]] <math>X_1, \dotsc, X_n</math> vor, so lässt sich die gemeinsame Dichtefunktion bzw. Wahrscheinlichkeitsfunktion wie folgt faktorisieren:

:<math>f(x_1,x_2,\dotsc,x_n; \vartheta)=\prod_{i=1}^n f(x_i;\vartheta)</math>.

Statt nun für einen festen Parameter <math>\vartheta</math> die Dichte für beliebige Werte <math>x_1,\dotsc,x_n </math> auszuwerten,
kann umgekehrt für beobachtete und somit feste Realisierungen <math>x_1,\dotsc,x_n </math> die gemeinsame Dichte als Funktion von
<math>\vartheta</math> interpretiert werden. Dies führt zur [[Likelihood-Funktion]]

:<math>L(\vartheta)=\prod_{i=1}^n f_{\vartheta}(x_i)</math>.

Die Likelihood-Funktion ist algebraisch identisch zur gemeinsamen Dichte <math>f(x_1,x_2,\dotsc,x_n; \vartheta)</math>.<ref>George G. Judge, R. Carter Hill, W. Griffiths, [[Helmut Lütkepohl]], T. C. Lee. ''Introduction to the Theory and Practice of Econometrics.'' 2. Auflage. John Wiley & Sons, New York / Chichester / Brisbane / Toronto / Singapore 1988, ISBN 0-471-62414-4, S. 64.</ref> Wird diese Funktion in Abhängigkeit von <math>\vartheta</math> maximiert<ref>Leonhard Held und Daniel Sabanés Bové: [https://www.springer.com/de/book/9783642378867 ''Applied Statistical Inference: Likelihood and Bayes.''] Springer Heidelberg New York Dordrecht London (2014). ISBN 978-3-642-37886-7, S. 14.</ref>

:<math>\hat\vartheta_{\text{ML}} = \underset{\vartheta \in \Theta}{\arg\max} \,L(\vartheta)</math>,

so erhält man die Maximum-Likelihood-Schätzung für den unbekannten Parameter <math>\vartheta</math>. Es wird also der Wert von <math>\vartheta</math> gesucht, bei dem die Stichprobenwerte <math>x_1,\dotsc,x_n </math> die größte Dichte- bzw. Wahrscheinlichkeitsfunktion haben. Es ist naheliegend, einen Parameterwert <math>\vartheta</math> als umso plausibler anzusehen je höher die Likelihood. Der Maximum-Likelihood-Schätzer ist in diesem Sinne der plausibelste Parameterwert für die Realisierungen <math>x_1,\dotsc,x_n </math> der Zufallsvariablen <math>X</math>. Ist <math>L(\cdot)</math> differenzierbar, so kann das Maximum bestimmt werden, indem man die erste [[Differentialrechnung|Ableitung]] nach <math>\vartheta</math> bildet und diese dann Null setzt. Da dieses bei Dichtefunktionen mit komplizierten [[Exponentialfunktion|Exponentenausdrücken]] sehr aufwändig werden kann, wird häufig die [[Logarithmus|logarithmierte]] Likelihood-Funktion bzw. logarithmische Likelihood-Funktion (kurz: ''[[Log-Likelihood-Funktion]]'') verwendet, da sie auf Grund der [[Monotone reelle Funktion|Monotonie]] des [[Logarithmus]] ihr Maximum an derselben Stelle wie die nichtlogarithmierte Dichtefunktion besitzt, jedoch einfacher zu berechnen ist:

:<math>\ell(\vartheta)=\log\left(\prod_{i=1}^n f_{\vartheta}(x_i)\right)= \sum_{i=1}^n \underbrace{\log f_{\vartheta}(x_i)}_{=\ell_{i}(\vartheta)} = \sum_{i=1}^n\ell_{i}(\vartheta)</math>,

wobei <math>\ell_{i}(\vartheta)</math> die individuellen Beiträge zur Log-Likelihood-Funktion sind.

=== Nicht unabhängig verteilte Zufallsvariablen ===
Bei nicht unabhängig verteilten Zufallsvariablen (wie z. B. in [[Longitudinalstudie]]n) faktorisiert die Likelihood-Funktion nur, falls unabhängige Blöcke von Zufallsvariablen vorliegen. In den jeweiligen Blöcken sind die (bedingten) Korrelationsfunktionen zu schätzen.
Beispielsweise gilt für einen Zufallsvektor [[mehrdimensionale Normalverteilung|normalverteilter]] Zufallsvariablen <math>X_1, \dots X_n</math>:
:<math>\ell(\vartheta=(\vec{\mu},\Sigma)) =\log f_{\vec{\mu},\Sigma}(\vec{x})=\log\left(\frac{1}{(2\pi)^{n/2}\sqrt{\det(\mathit\Sigma)}} \exp\left( -\frac{1}{2} \left[x_1-\mu_1,\ldots,x_n-\mu_n\right]\mathit\Sigma^{-1} \left[x_1-\mu_1,\ldots,x_n-\mu_n\right]^\mathrm{T} \right)\right),</math>
wobei <math>\vec{\mu}</math> ein Vektor (bedingter) Erwartungswerte und <math>\Sigma</math> die Korrelationsmatrix ist, welche beide zu schätzen sind.<ref>Barnett, A. G., Dobson, A. J. (2018). An Introduction to Generalized Linear Models. USA: CRC Press.</ref>
Da die Zahl der Parameter von <math>\Sigma</math> gleich <math>n(n+1)/2</math> ist und somit quadratisch in <math>n</math> steigt, kann es hilfreich sein, eine parametrische Form für <math>\Sigma</math> anzunehmen.

== Beispiele ==
=== Diskrete Verteilung, kontinuierlicher Parameterraum ===
Die Anzahl der Anrufe bei zwei Telefonisten in einer Stunde in einem Call-Center kann mit einer [[Poisson-Verteilung]]

:<math>X_1 \sim \mathcal{P}(\lambda)\;</math> und <math>\;X_2 \sim \mathcal{P}(\lambda)</math>

modelliert werden. Beim ersten Telefonisten gehen drei und beim zweiten fünf Anrufe pro Stunde unabhängig voneinander ein. Die Likelihood-Funktion für den unbekannten Parameter <math>\lambda</math> ergibt sich als

:<math>L(\lambda)=P(\{X_1=3\} \cap \{X_2=5\})=P(X_1=3) \cdot P(X_2=5).</math>

[[Datei:Maximum likelihood poisson.svg|mini|hochkant=1.2|Likelihood-Funktion im nebenstehenden Beispiel]]
Setzt man die Werte in die Wahrscheinlichkeitsfunktion

:<math>P(X=x) = \frac{1}{x!}\lambda^{x}\exp(-\lambda)\quad x= 0,1,2,\ldots</math>

ein, so folgt

:<math>L(\lambda)=\frac{\lambda^3}{3!}\exp(-\lambda)\;\frac{\lambda^5}{5!}\exp(-\lambda)=\frac{\lambda^8}{3!5!}\exp(-2\lambda)</math>.

Die erste Ableitung der Likelihood-Funktion ergibt sich zu

:<math>\begin{align}\left.
\frac{\rm d}{\rm d \lambda} L(\lambda)\right|_{\hat{\lambda}}
&= \frac{1}{3!5!}\left(8 \lambda^7 \exp(-2\lambda) -2 \lambda^8 \exp(-2\lambda)\right) \\
& = \frac{2\lambda^7 \exp(-2\lambda)}{3!5!} (4 - \lambda)
\end{align}</math>

und die Nullstellen sind offenbar <math>\hat{\lambda}=0\,</math> und <math>\hat{\lambda}=4</math>. Nur für <math>\hat{\lambda}_{\text{ML}}=4</math> hat die Likelihood-Funktion ein Maximum und dies ist der Maximum-Likelihood-Schätzwert.

Im allgemeinen Fall, mit <math>n</math> Telefonisten, die jeweils <math>x_i</math> Anrufe pro Stunde erhalten, ergibt sich die Likelihood-Funktion als

:<math>L(\lambda)=\frac{1}{\prod_{i=1}^n x_i!}\lambda^{\sum_{i=1}^{n}x_i}\exp(-n\lambda)</math>

und die Log-Likelihood-Funktion als

:<math>\ell(\lambda)=\log(L(\lambda))=\sum_{i=1}^{n} x_i \log(\lambda)-\log\left(\prod_{i=1}^n x_i!\right)-n\lambda.</math>

Die Ableitung nach <math>\lambda</math> ergibt

:<math>\left.\frac{\rm d}{\rm d \lambda} \ell(\lambda)\right|_{\hat{\lambda}_{\text{ML}}} = \frac{\sum_{i=1}^{n} x_i}{\hat{\lambda}_{\text{ML}}}-n \;\overset \mathrm{!} = \; 0</math>

und nach Umformen ergibt sich der Maximum-Likelihood-Schätzer als

:<math>\hat{\lambda}_{\text{ML}} = \frac{1}{n}\sum_{i=1}^{n}x_i=\overline{x}</math>

und die zugehörige [[Schätzfunktion]] als

:<math>\Lambda = \frac{1}{n}\sum_{i=1}^{n} X_i=\overline{X}.</math>

=== Diskrete Verteilung, endlicher Parameterraum ===
Eine Urne enthält <math>N=8</math> Kugeln, die entweder rot oder schwarz sind. Die genaue Anzahl <math>M \in \{0,1,\dotsc,8\}</math> der roten Kugeln ist nicht bekannt.
Nacheinander werden <math>n=4</math> Kugeln gezogen und jeweils wieder zurück in die Urne gelegt.
Beobachtet werden <math>x_1=1</math> (erste Kugel ist rot), <math>x_2=1</math> (zweite Kugel ist rot),
<math>x_3=0</math> (dritte Kugel ist schwarz) und <math>x_4=1</math> (vierte Kugel ist rot).

Gesucht ist nun die nach dem Maximum-Likelihood-Prinzip plausibelste Zusammensetzung der Kugeln in der Urne.

In jedem Zug ist die Wahrscheinlichkeit, eine rote Kugel zu ziehen, gleich <math>\textstyle \frac{M}{N}</math>. Wegen der Unabhängigkeit der Ziehungen ist die Wahrscheinlichkeit des beobachteten Ergebnisses und damit die zugehörige Likelihood-Funktion in Abhängigkeit vom unbekannten Parameter <math>M</math> gegeben durch (siehe [[Binomialverteilung]])

:<math>
L(M) = \left(\frac{M}{N}\right)^3\left(1-\frac{M}{N}\right) = \frac{1}{N^4}M^3(N-M) = \frac{1}{8^4}M^3(8-M).
</math>

Es ergeben sich folgende Funktionswerte:

{| class="wikitable zebra centered"
|-
| align="right" | <math>M</math>
| align="right" | <math>0</math>
| align="right" | <math>1</math>
| align="right" | <math>2</math>
| align="right" | <math>3</math>
| align="right" | <math>4</math>
| align="right" | <math>5</math>
| align="right" | <math>6</math>
| align="right" | <math>7</math>
| align="right" | <math>8</math>
|----
| align="right" | <math>L(M)</math>
| align="right" | 0
| align="right" | 0,002
| align="right" |0,012
| align="right" |0,033
| align="right" |0,063
| align="right" |0,092
| align="right" |0,105
| align="right" |0,084
| align="right" |0
|}

Daraus ergibt sich, dass die Likelihood-Funktion <math>L(M)</math> maximal ist für <math>M=6</math>. Damit ist <math>M=6</math> der plausibelste Parameterwert für die Realisierung drei roter Kugeln bei vier Ziehungen und somit der Schätzwert nach der Maximum-Likelihood-Methode.

=== Stetige Verteilung, kontinuierlicher Parameterraum ===
Seien <math>x_{1:n}</math> [[Realisierung (Stochastik)|Realisierungen]] einer [[Zufallsstichprobe]] <math>X_{1:n}</math> einer Normalverteilung <math>\mathcal{N}(\mu, \sigma^2)</math> mit unbekanntem [[Erwartungswert]] <math>\mu \in (-\infty, \infty) </math> und unbekannter Varianz <math>\sigma^2>0</math>. Die [[Dichtefunktion]] für jede einzelne Realisierung ist dann gegeben durch

:<math>f\left(x_i\mid \mu,\sigma^2\right) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp{\left(-\frac {1}{2\sigma^2}(x_i-\mu)^2 \right)}</math>.

Dann ist

:<math>L(\vartheta) = \prod_{i=1}^{n} f_{\vartheta}\left( x_{i}\right) = \prod_{i=1}^{n} \frac{1}{\sqrt{2\pi\sigma^2}} \exp{\left(-\frac{1}{2\sigma^2}(x_i-\mu)^2 \right)} = \frac{1}{\left( 2\pi \sigma^2 \right)^{n/2}} \exp\left( -\frac{1}{2 \sigma^2}\sum_{i=1}^{n}(x_i-\mu)^2\right)</math>.

die Likelihood-Funktion von <math>\vartheta = (\mu, \sigma^2) \in \Theta = (-\infty, \infty) \times (0 ,\infty)</math>. Als Log-Likelihood-Funktion (auch logarithmische Plausibilitätsfunktion genannt) ergibt sich

:<math> \ell(\vartheta) = \log L(\vartheta) = -\frac{n}{2}\log\left(2\pi \sigma^2\right) - \frac{1}{2 \sigma^2}\sum_{i=1}^{n}(x_i-\mu)^2</math>.

Bildet man die [[Partielle Ableitung|partiellen Ableitungen]] von <math>\ell(\vartheta)</math> nach <math>\mu</math> und <math>\sigma^2</math> (bildet man also die [[Score-Funktion]]en) und setzt man beide Ausdrücke gleich null, dann erhält man die beiden Likelihood-Gleichungen

:<math>\left.\frac{\partial}{\partial \mu}\ell(\vartheta) \right|_{\hat{\mu}_{\text{ML}}} = -\frac{1}{\sigma^2}\sum_{i=1}^{n}(x_i-\hat{\mu}_{\text{ML}}) \cdot (-1)\;\overset \mathrm{!} = \; 0</math>

und

:<math>\left.\frac{\partial}{\partial \sigma^2} \ell(\vartheta) \right|_{{\hat \sigma^2}_{\text{ML}}} = -\frac{n}{2{\hat \sigma^2}_{\text{ML}}} + \frac{1}{2({\hat \sigma^2}_{\text{ML}})^2}\sum_{i=1}^{n}(x_i-\mu)^2\;\overset \mathrm{!} = \; 0</math>.

Löst man nun nach <math>\hat{\mu}_{\text{ML}}</math> und <math>{\hat \sigma^2}_{\text{ML}}</math> dann erhält man die beiden Maximum-Likelihood-Schätzungen

:<math>\hat{\mu}_{\text{ML}} = \frac{1}{n}\sum^{n}_{i=1}x_i = \overline{x}</math>

und

:<math>{\hat \sigma^2}_{\text{ML}}= \frac{1}{n}\sum_{i=1}^n(x_i-\mu)^2</math>.

Geht man von den Zufallsvariablen <math>X_1, \ldots , X_n</math> und nicht von ihren Realisierungen <math>x_1, \ldots, x_n</math> aus, erhält man den [[Stichprobenmittelwert]]

:<math>\hat\mu_{\text{ML}}= \overline{X}= \frac{1}{n}\sum\limits_{i=1}^{n}X_{i}</math>

und die [[Stichprobenvarianz (Schätzfunktion)|Stichprobenvarianz]]

:<math>\hat\sigma_{\text{ML}}^2 = \tilde{S}^2 = \frac{1}{n} \sum_{i=1}^n (X_i-\overline X )^2 </math>

als Maximum-Likelihood-Schätzer.

Tatsächlich hat die Funktion <math>L(\vartheta)</math> an dieser Stelle ihr Maximum (siehe [[Schätzung der Varianz der Grundgesamtheit#Varianzschätzung einer normalverteilten Grundgesamtheit|Schätzung der Varianz der Grundgesamtheit]]).

Für den Erwartungswert von <math>\hat{\mu}_{\text{ML}}</math> ergibt sich

:<math>\operatorname{E}(\hat{\mu}_{\text{ML}})= \mu</math>,

das heißt, der Maximum-Likelihood-Schätzer <math>\hat{\mu}_{\text{ML}}</math> ist [[Erwartungstreue|erwartungstreu]] für den unbekannten Parameter <math>\mu</math>.

Man kann zeigen, dass für den Erwartungswert von <math>\hat{\sigma}_{\text{ML}}^2</math>

:<math>\operatorname{E}(\hat \sigma^2_{\text{ML}})= \frac{n-1}{n}\sigma^2</math>

gilt (siehe [[Stichprobenvarianz (Schätzfunktion)#Unbekannter Erwartungswert|unbekannter Erwartungswert]]). Der Maximum-Likelihood-Schätzer <math>\hat\sigma_{\text{ML}}^2</math> für die [[Erwartungstreue Schätzung der Varianz der Störgrößen|unbekannte skalare Störgrößenvarianz]] <math>\sigma^2</math> ist also ''nicht'' erwartungstreu. Allerdings kann man zeigen, dass der Maximum-Likelihood-Schätzer <math>\hat \sigma_{\text{ML}}^2</math> asymptotisch erwartungstreu für <math>\sigma^2</math> ist.

== Historische Entwicklung ==
Die Maximum-Likelihood-Methode geht auf [[Ronald Aylmer Fisher]] zurück, der sie zunächst in relativer Unkenntnis von Vorarbeiten durch [[Carl Friedrich Gauß|Gauß]] in Arbeiten von 1912, 1921 und schließlich 1922 unter dem später bekannten Namen entwickelte. Die Hauptergebnisse wurden auch bereits 1908 von [[Francis Ysidro Edgeworth]] hergeleitet.<ref>R. A. Fisher: ''An absolute criterion for fitting frequency curves''. In: ''Messenger of Math.'' Nr. 41, S. 155, 1912. {{JSTOR|2246266}} ([https://digital.library.adelaide.edu.au/dspace/handle/2440/15165 online])</ref><ref>John Aldrich: ''R. A. Fisher and the Making of Maximum Likelihood 1912–1922''. In: ''Statistical Science.'' Band 12, Nr. 3, S. 162–176, 1997, {{DOI|10.1214/ss/1030037906}}, {{JSTOR|2246367}}.</ref>

== Maximum-Likelihood-Schätzung ==
Als '''Maximum-Likelihood-Schätzung''', kurz '''MLS''' bezeichnet man in der Statistik eine Parameterschätzung, die nach der Maximum-Likelihood-Methode berechnet wurde. In der englischen Fachliteratur ist die Abkürzung MLE (für ''maximum likelihood estimation'' oder ''maximum likelihood estimator'') dafür sehr verbreitet. Eine Schätzung, bei der Vorwissen in Form einer [[A-priori-Wahrscheinlichkeit]] einfließt, wird ''[[Maximum-a-posteriori-Schätzung]]'' (kurz ''MAP'') genannt.

== Eigenschaften von Maximum-Likelihood-Schätzern ==
Die besondere [[Punktschätzer#Qualitätskriterien für Punktschätzer|Qualität von Maximum-Likelihood-Schätzern]] äußert sich darin, dass sie in der Regel die [[Effizienz (Statistik)|effizienteste]] Methode zur Schätzung bestimmter Parameter darstellt.

=== Existenz ===
Unter bestimmten Regularitätsbedingungen lässt sich beweisen, dass Maximum-Likelihood-Schätzer existieren, was aufgrund ihrer impliziten Definition als eindeutiger Maximalstelle einer nicht näher bestimmten Wahrscheinlichkeitsfunktion nicht offensichtlich ist. Die für diesen Beweis benötigten Voraussetzungen bestehen im Prinzip ausschließlich aus Annahmen zur Vertauschbarkeit von [[Infinitesimalrechnung|Integration und Differentiation]], was in den meisten betrachteten Modellen erfüllt ist.

=== Asymptotische Normalität ===
Wenn Maximum-Likelihood-Schätzer existieren und gewisse Regularitätsbedingungen erfüllt sind, dann sind sie [[Asymptotische Normalität|asymptotisch normalverteilt]].<ref>Mark Schervish: ''Theory of Statistics.'' Springer, New York 1995, ISBN 978-1-4612-8708-7. Kapitel 7.3.5</ref> Formal gesprochen sei <math>\hat\vartheta_{\text{ML}}</math> der Maximum-Likelihood-Schätzer für einen Parameter <math>\vartheta</math> und <math>I^*(\vartheta)=\operatorname{E}(I(\vartheta))</math> erwartete [[Fisher-Information]]. Dann gilt unter bestimmten Annahmen

:<math>\sqrt{I^*(\vartheta)} (\hat\vartheta_{\text{ML}} - \vartheta) \;\stackrel{a}{\sim} \; \mathcal{N}(0, 1)</math>

bzw.

:<math>\hat\vartheta_{\text{ML}}\;\stackrel{a}{\sim} \; \mathcal{N}(\vartheta, (I^*(\vartheta))^{-1})</math>.

=== Allgemeine Tests ===
[[Datei:MaximumLikelihood HolyTrinity.svg|mini|hochkant=1.2|Arbeitsweise der drei Tests im Rahmen der Maximum-Likelihood-Methode.]]
Die Konvergenz der Maximum-Likelihood-Schätzfunktion <math>\hat\vartheta_{\text{ML}}</math> gegen eine [[Normalverteilung]] erlaubt die Ableitung allgemeiner Tests zur Prüfung von Modellen und Koeffizienten:

* [[Likelihood-Quotienten-Test]],
* [[Wald-Test]] und
* [[Score-Test]] oder [[Lagrange-Multiplikator-Test]] (LM-Test).

Die Grafik rechts zeigt die Arbeitsweise der Tests auf: Der Likelihood-Quotienten-Test vergleicht die Werte der Likelihood-Funktionen miteinander, der Wald-Test prüft den Abstand zwischen dem geschätzten Parameter und dem vorgegebenen Parameter und der Score-Test, ob die Ableitung der Likelihood-Funktion Null ist.

Da diese Tests nur asymptotisch gültig sind, gibt es für „kleine“ Stichprobenumfänge oft Tests mit besseren [[Optimalitätseigenschaft]]en.

==== Likelihood-Quotienten-Test ====
Im Likelihood-Quotienten-Test wird geprüft, ob sich zwei [[Hierarchisch strukturierte Daten|hierarchisch geschachtelte]] Modelle ({{enS}} ''nested models'') signifikant voneinander unterscheiden. Ist <math>\vartheta</math> ein Parametervektor, sind <math>\Theta_0 \subset \Theta_1</math> zwei Parameterräume (<math>\Theta_0</math> reduziertes Modell, <math>\Theta_1</math> volles Modell) sowie <math>L(\vartheta)</math> die Likelihood-Funktion, dann gilt unter der Nullhypothese (<math>H_0\colon \vartheta \in \Theta_0</math> vs. <math>H_1\colon \vartheta \in \Theta_1</math>)

:<math>LR = -2\log\left(\frac{\max_{\Theta_0} L(\vartheta)}{\max_{\Theta_1} L(\vartheta)}\right) \;\stackrel{a}{\sim} \; \chi^2(\dim(\Theta_1)-\dim(\Theta_0))</math>.

Eine Ablehnung der Nullhypothese bedeutet, dass das „volle Modell“ (das Modell unter der [[Alternativhypothese]]) eine signifikant bessere Erklärung liefert als das „reduzierte Modell“ (das Modell unter der [[Nullhypothese]] bzw. [[Nullmodell]]) .

==== Wald-Test ====
Während der Likelihood-Quotienten-Test Modelle vergleicht, zielt der [[Wald-Test]] auf einzelne Koeffizienten (univariat) oder Koeffizientengruppen (multivariat). Asymptotisch und unter der Nullhypothese <math>H_{0}</math> folgt

:<math>W = \sqrt{I(\hat\vartheta_{\text{ML}})} (\hat\vartheta_{\text{ML}}-\vartheta_0) \;\stackrel{a, H_{0}}{\sim} \; \mathcal{N}(0, 1)</math>.

D.h. die Wald-Teststatistik ist unter o. g. Voraussetzungen standardnormalverteilt. Hierbei bezeichnet <math>I(\cdot)</math> die Fisher-Information.

=== Akaike-Informationskriterium ===
Die Maximum-Likelihood-Methode ist auch eng mit dem [[Akaike-Informationskriterium]] (AIC) verknüpft. [[Hirotsugu Akaike]] zeigte, dass das Maximum der Likelihood-Funktion ein verzerrter Schätzer für die [[Kullback-Leibler-Divergenz]], der Abstand zwischen dem wahren Modell und dem Maximum-Likelihood-Modell, ist. Je größer der Wert der Likelihood-Funktion ist, desto näher liegt das Modell am wahren Modell, gewählt wird das Modell, das den geringsten AIC-Wert aufweist. Die asymptotische [[erwartungstreue]] ist gerade die Anzahl der zu schätzenden Parameter. Mit dem Akaike-Informationskriterium kann man, im Gegensatz zum Likelihood-Quotienten-, Wald- und Score-Test, auch nichtgeschachtelte ML-Modelle vergleichen.

=== Anpassungsgüte ===
Die [[Anpassungsgüte]] kann mithilfe der [[Pseudo-Bestimmtheitsmaß]]e beurteilt werden.

== Nachteile der Methode ==
Die wünschenswerten Eigenschaften des Maximum-Likelihood-Ansatzes beruhen auf der entscheidenden Annahme über den datenerzeugenden Prozess, das heißt auf der unterstellten Dichtefunktion der untersuchten Zufallsvariable. Der Nachteil der Maximum-Likelihood-Methode besteht darin, dass eine konkrete Annahme über die gesamte Verteilung der Zufallsvariable getroffen werden muss.
Wenn diese jedoch verletzt ist, kann es sein, dass die Maximum-Likelihood-Schätzer inkonsistent sind.

Nur in einigen Fällen ist es unerheblich, ob die Zufallsvariable tatsächlich der unterstellten Verteilung gehorcht, allerdings gilt dies nicht im Allgemeinen. Per Maximum-Likelihood gewonnene Schätzer, die konsistent sind, auch wenn die zu Grunde gelegte Verteilungsannahme verletzt wird, sind sogenannte Pseudo-Maximum-Likelihood-Schätzer.

Maximum-Likelihood-Schätzer können Effizienzprobleme und systematische Fehler in kleinen Stichproben aufweisen.

Sind die Daten nicht zufällig, kann man mit anderen Methoden oft bessere Parameter ermitteln. Das kann beispielsweise bei Quasi-Monte-Carlo-Analysen eine Rolle spielen, oder wenn die Daten bereits gemittelt sind.

== Erweiterungen ==
Die [[empirische Likelihood]] erlaubt es den Nachteil einer zwingenden Verteilungsannahme zu beseitigen und eine nichtparametrische Maximum-Likelihood-Methode zu definieren.

== Anwendungsbeispiel: Maximum-Likelihood in der molekularen Phylogenie ==
Das Maximum-Likelihood-Kriterium gilt als eine der Standardmethoden zur Berechnung von [[Phylogenetischer Baum|phylogenetischen Bäumen]], um Verwandtschaftsbeziehungen zwischen Organismen – meist anhand von DNA- oder Proteinsequenzen – zu erforschen. Als explizite Methode ermöglicht Maximum-Likelihood die Anwendung verschiedener Evolutionsmodelle, die in Form von Substitutionsmatrizen in die Stammbaumberechnungen einfließen. Entweder werden empirische Modelle verwendet (Proteinsequenzen) oder die Wahrscheinlichkeiten für Punktmutationen zwischen den verschiedenen Nukleotiden werden anhand des Datensatzes geschätzt und hinsichtlich des Likelihood-Wertes (<math>-\ln L</math>) optimiert (DNA-Sequenzen). Allgemein gilt ML als die zuverlässigste und am wenigsten Artefakt-anfällige Methode unter den phylogenetischen Baumkonstruktionsmethoden. Dies erfordert jedoch ein sorgfältiges Taxon-„Sampling“ und meist ein komplexes Evolutionsmodell.

== Siehe auch ==
{{Commonscat|Maximum likehood|Maximum-Likelihood-Methode}}
* [[Devianz (Statistik)]]
== Literatur ==
* Schwarze, Jochen: ''Grundlagen der Statistik'' – Band 2: ''Wahrscheinlichkeitsrechnung und induktive Statistik'', 6. Auflage, Berlin; Herne: Verlag Neue Wirtschaftsbriefe, 1997
* {{cite book|author=Blobel, Volker und Lohrmann, Erich|title=Statistische und numerische Methoden der Datenanalyse|location=Stuttgart; Leipzig|publisher=Teubner Studienbücher|year=1998|isbn=978-3-519-03243-4}}

== Einzelnachweise ==
<references />

[[Kategorie:Schätztheorie]]

Maximum-Likelihood-Methode - Versionsgeschichte

imported>Mathze: unübliche Bezeichnung entfernt (siehe Diskussionsseite)