imported>Bithisarea: /* growthexperiments-addlink-summary-summary:2|0|0 */

2025-01-30T22:11:58Z

growthexperiments-addlink-summary-summary:2|0|0

Neue Seite

{{Dieser Artikel|behandelt den Begriff in der Informationstheorie, für den in der Wissenschaftstheorie siehe [[Informationsgehalt (Wissenschaftstheorie)]].}}

Der '''Informationsgehalt''' (oder auch '''Überraschungswert''') einer [[Nachricht]] ist eine [[logarithmische Größe]], die angibt, wie viel [[Information]] in dieser Nachricht übertragen wurde.

Dieser Begriff wurde von [[Claude Shannon]] erstmals in seiner [[Informationstheorie]] formalisiert: Der Informationsgehalt eines [[Zeichen]]s ist seine [[statistische Signifikanz]]. Er bezeichnet also die minimale Anzahl von [[Bit]]s, die benötigt werden, um ein Zeichen (also eine Information) darzustellen oder zu übertragen. Wichtig ist dabei, dass dies nicht unbedingt der Anzahl der tatsächlich empfangenen Bits (der [[Datenmenge]]) entspricht, da der Informationsgehalt vom [[Semantik|semantischen]] Kontext abhängig ist.

== Definition ==
Der Informationsgehalt eines Zeichens ''x'' mit einer Auftrittswahrscheinlichkeit ''p<sub>x</sub>'' ist definiert als

: <math>I(x) = \log_a \left(\frac{1}{p_x} \right) = \log_a(1)-\log_a( p_x ) = -\log_a( p_x )</math>.

''a'' entspricht dabei der [[Mächtigkeit (Mathematik)|Mächtigkeit]] des Alphabets (d. h. der Anzahl der möglichen Zustände einer Nachrichtenquelle).

Abhängig von der gewählten Basis ''a'' ändert sich auch die Einheit des Informationsgehaltes. Dies stellte schon Shannon in {{lang|en|''A Mathematical Theory of Communication''}} fest.<ref name="Shannon_1948">{{Literatur |Autor=Claude Elwood Shannon |Titel=A Mathematical Theory of Communication |Hrsg=Bell Labs |Sammelwerk=The Bell System Technical Journal |Band=27 |Nummer=3 |Datum=1948-07 |Sprache=en |ISSN=0005-8580 |Seiten=379–423 |DOI=10.1002/j.1538-7305.1948.tb01338.x | Online=https://people.math.harvard.edu/~ctm/home/text/others/shannon/entropy/entropy.pdf |Format=PDF |KBytes=358 |Abruf=2023-08-01}}</ref> Im Allgemeinen kann die Einheit des Informationsgehaltes als [[Shannon (Einheit)|Shannon (sh)]] bezeichnet werden, aber diese Einheitsbezeichnung hat sich nicht durchgesetzt. Im wohl häufigsten Fall, dass für das Alphabet (mit der Mächtigkeit ''a'') das Binäralphabet gewählt wird, entspricht die Einheit des Informationsgehaltes dem [[Bit]].

Im folgenden Text sei ''a'' = 2 (das [[Dualsystem|Binärsystem]]) angenommen, wodurch man als Ergebnis die Anzahl der Binärziffern (in [[Bit]]) erhält. Stattdessen könnte auch jedes andere [[Zahlensystem]] verwendet werden.

== Allgemeines ==
Der Begriff der [[Information]], wie er in der Informationstheorie nach Shannon<ref name="Shannon_1951">{{Literatur |Autor=Claude Elwood Shannon |Titel=Prediction and Entropy of Printed English |Hrsg=Bell Labs |Sammelwerk=The Bell System Technical Journal |Band=30 |Nummer=1 |Datum=1951-01 |Sprache=en |ISSN=0005-8580 |Seiten=50–64 |DOI=10.1002/j.1538-7305.1951.tb01366.x |Online=https://sites.socsci.uci.edu/~rfutrell/teaching/itl-davis/readings/shannon1951prediction.pdf |Format=PDF |KBytes=5318 |Abruf=2023-08-01}}</ref> verwendet wird, ist streng von dem gewöhnlichen Gebrauch dieses Begriffes zu unterscheiden. Insbesondere darf er nicht mit dem Begriff der [[Bedeutung]] gleichgesetzt werden. In Shannons Theorie können z. B. zwei Nachrichten, von denen eine von besonderer Bedeutung ist, während die andere nur „Unsinn“ darstellt, genau die gleiche Menge an Information enthalten. Für den einfachen Fall, in dem nur zwischen zwei möglichen Nachrichten zu wählen ist, wird dabei willkürlich festgelegt, dass die Information, die mit dieser Situation verbunden ist, gleich 1 ist. Die beiden Nachrichten, zwischen denen bei einer solchen Auswahl entschieden werden soll, können dabei völlig beliebig sein. Eine Nachricht könnte z. B. der Text des Telefonbuches sein und die andere Nachricht der einzelne Buchstabe „A“. Diese beiden Nachrichten könnten dann beispielsweise durch die Symbole 0 und 1 codiert werden.

Allgemeiner wird durch eine beliebige Nachrichtenquelle eine Folge von Auswahlvorgängen aus einer Menge von elementaren Zeichen vorgenommen, wobei diese ausgewählte Folge dann die eigentliche Nachricht darstellt. Hierbei ist leicht einzusehen, dass die [[Wahrscheinlichkeit]]en der Zeichen bei der Erzeugung der Nachricht von besonderer Wichtigkeit sind. Denn wenn die aufeinanderfolgenden Zeichen ausgewählt werden, ist diese Auswahl, zumindest vom Standpunkt des Kommunikationssystems aus, von dieser Wahrscheinlichkeit bestimmt. Diese Wahrscheinlichkeiten sind in den meisten Fällen sogar voneinander abhängig, d. h., sie hängen von den vorangegangenen Auswahlereignissen ab. Ist z. B. das letzte Wort einer Wortfolge der Artikel „die“, dann ist die Wahrscheinlichkeit dafür, dass als nächstes Wort wieder ein Artikel oder ein Verb auftritt, sehr gering.

Ein Maß, welches in besonderer Weise den natürlichen Anforderungen genügt, die man an dieses Informationsmaß stellt, entspricht genau dem, welches in der statistischen Physik als [[Entropie]] bekannt geworden ist. Wie dieses Informationsmaß von den entsprechenden Wahrscheinlichkeiten abhängt, wird im folgenden Abschnitt erklärt.

Formal werden die zu übertragenden Informationen als ''Zeichen'' bezeichnet. Dabei steht nur ein endlicher [[Zeichenvorrat]] zur Verfügung, Zeichen können aber beliebig kombiniert werden. Die minimale Anzahl von Bits, die für die Darstellung oder Übertragung eines Zeichens benötigt werden, hängt nun von der Wahrscheinlichkeit ab, mit der ein Zeichen auftritt: Für Zeichen, die häufig auftreten, verwendet man weniger Bits als für Zeichen, die selten verwendet werden. [[Datenkompression]]stechniken machen sich das zu Nutze, insbesondere [[Entropiekodierung]]en wie die [[Arithmetische Kodierung]] und die [[Huffman-Kodierung]]. Ein ähnliches Verfahren wird zum Ausbalancieren von [[Binärbaum|Binärbäumen]] verwendet.

[[Datei:Entropy InformationInSign.png|mini|Je kleiner die Auftretenswahrscheinlichkeit eines Zeichens ist, desto höher ist sein Informationsgehalt. Andersherum ist der Informationsgehalt eines Zeichens sehr gering, wenn es sehr oft vorkommt.]]

Grundsätzlich wird der Informationsgehalt für [[Stochastisch unabhängige Ereignisse|statistisch unabhängige]] Ereignisse und statistisch abhängige Ereignisse unterschiedlich berechnet.

Man könnte auch sagen, dass der Informationsgehalt eines Zeichens proportional zum (negativen) [[Logarithmus]] der Wahrscheinlichkeit ist, mit der man es ''erraten'' kann. Der Informationsgehalt ist also ein Maß für die maximale [[Effizienz (Informatik)|Effizienz]], mit der eine Information übertragen werden kann.

Ein alternatives Maß für den Informationsgehalt einer [[Zeichenkette]] ist die [[Kolmogorov-Komplexität]] bzw. der [[Algorithmischer Informationsgehalt|algorithmische Informationsgehalt]]: er ist definiert als die Länge des kürzesten [[Computerprogramm|Programms]], das diese Zeichenkette erzeugen kann. Ein weiterer Ansatz ist die sogenannte [[Algorithmische Tiefe]], die besagt, wie aufwändig es ist, eine bestimmte Nachricht zu erzeugen. [[Gregory Chaitin]] ist ebenfalls über die Shannonsche Definition der Entropie einer Information hinausgegangen (siehe [[Algorithmische Informationstheorie]]).

In diesem Zusammenhang spielen auch die [[Kreuzentropie]] sowie die [[Kullback-Leibler-Divergenz]] als Maße für die durch eine schlechte Kodierung ausgelösten Verschwendungen von Bits eine Rolle.

== Informationsgehalt statistisch unabhängiger Ereignisse ==
Sei <math>x_1, x_2, \dots, x_n</math> eine Folge von ''n'' [[Stochastisch unabhängige Ereignisse|statistisch unabhängig]] aufeinanderfolgenden [[Ereignis (Wahrscheinlichkeitstheorie)|Ereignissen]]. Der Informationsgehalt <math>I_\mathrm{ges}</math> ist dann die Summe der Informationsgehalte aller Ereignisse:

: <math>I_\mathrm{ges} = I(x_1) + I(x_2) + I(x_3) + \dots + I(x_n) = \sum_{k=1}^{n}{I(x_k)}</math>

Ebenso lässt sich der Informationsgehalt mit der [[Entropie (Informationstheorie)|Entropie]] <math>H(X)</math> (mittlerer Informationsgehalt eines Zeichens) berechnen.

: <math>I_\mathrm{ges} = n\cdot H(X)</math>

Bei einer Gleichverteilung der Wahrscheinlichkeiten <math>p(x_i) = p=1/|Z|</math> für alle Zeichen <math>x_i</math> aus dem Alphabet <math>Z</math> lässt sich die Gesamtinformation auch über die [[Entropie (Informationstheorie)#Maximaler Entropiewert und Normierung|maximale Entropie]] beziehungsweise die Alphabetsgröße <math>|Z|</math> berechnen:

: <math>I_\mathrm{ges} = n\cdot H_\mathrm{max}(X)= n\cdot \log_{2}({|Z|})</math>  bzw.  <math> n\cdot I(p)</math>

Der Informationsgehalt der beiden Quellen „01010101…“ und „10010110…“ ist aus der Betrachtung von statistisch unabhängigen Ereignissen nach obiger Formel gleich. Zu erkennen ist, dass die Zeichen der ersten Quelle durch eine sich wiederholende Struktur geordnet sind. Deshalb würde man intuitiv in der ersten Kette weniger Information als in der zweiten Kette vermuten. Bei der Betrachtung als statistisch unabhängiges Ereignis wird aber jedes Zeichen einzeln betrachtet und nicht der eventuelle Zusammenhang mehrerer Zeichen berücksichtigt.

Eine andere Definition der Information eines Zeichens liefert die [[bedingte Entropie]]. Bei ihr wird das Auftreten vorangegangener Zeichen berücksichtigt. Die aufeinanderfolgenden Zeichen werden in diesem Fall als statistisch abhängige Ereignisse betrachtet.

== Informationsgehalt statistisch abhängiger Ereignisse ==
Bei statistisch [[Bedingte Wahrscheinlichkeit|abhängigen Ereignissen]] kennt man den Kontext der Ereignisse genauer und kann daraus Schlussfolgerungen ziehen, die den Informationsgehalt beeinflussen. Dabei können meistens die folgenden Ereignisse durch Ausschlussverfahren und Bindungen ‚erraten‘ werden. Ein Beispiel für statistisch abhängige Ereignisse ist ein Text in der deutschen Sprache: das „c“ tritt meistens paarweise mit einem „h“ oder „k“ auf. Andere Buchstaben unterliegen ebenfalls solchen paarweisen Bindungen.

Hierzu wird ähnlich wie bei statistisch unabhängigen Ereignissen der durchschnittliche und kontextsensitive Informationsgehalt eines Zeichens mit der Anzahl der vorhandenen Zeichen multipliziert:

: <math>I_\mathrm{ges} = n\cdot H(X|Y)</math>

Die [[bedingte Entropie]] berechnet sich folgend:

: <math>H(X|Y)=\sum_{y}{\,}{p(y) \cdot H(X|Y = y )} = -\sum_{x}^{}\sum_{y}^{} p(x,y) \cdot \log_{2}{p(x|y)} </math>

Bedingte Entropie als Differenz von Quell-Information und [[Transinformation]]:

: <math>H(X|Y) = H(X) - I(X;Y) \,</math>  

Interpretation: Seien ''X'' und ''Y'' zwei stationär abhängige Quellen. ''H''(''X'') sei die stationär betrachtete Quell-Entropie. ''I''(''X'';''Y'') ist die [[Transinformation]], die Information, die von ''X'' nach ''Y'' fließt, also die Menge an Information, von der man von ''X'' auf ''Y'' schließen kann. Ist diese Information hoch, so ist auch die Abhängigkeit von ''X'' und ''Y'' hoch. Dementsprechend ist die über ''X'' nach einer Beobachtung ''Y'' nicht so hoch, da man nicht sehr viel neue Information über ''Y'' erhält.

Bedingte Entropie als Gesamtinformation abzüglich der Entropie von ''H''(''Y''):

: <math>H(X|Y) = H(X,Y) - H(Y) = H(X,Y) - ( I(X;Y) + H(Y|X) ) \,</math>  

Interpretation: Im statistisch abhängigen Fall zieht man von der Gesamtinformation ([[Verbundentropie]]) die gemeinsame Information (= ''I''(''X'';''Y'')) von ''X'' und ''Y'' ab. Außerdem soll auch die neue Information, die ''Y'' mit sich bringt nicht mit eingerechnet werden, denn man möchte am Ende nur die Menge an Information von ''X'' herausbekommen, die ''X'' alleine beinhaltet. Deshalb rechnet man: ''H''(''X''|''Y'') = ''H''(''X'',''Y'') − ''I''(''X'';''Y'') − ''H''(''Y''|''X'')

''Bemerkung:'' Die Information von statistisch abhängigen Ereignissen ist immer kleiner oder gleich der von statistisch unabhängigen Ereignissen, da wie folgt gilt: ''H''(''X''|''Y'') ≤ ''H''(''X'')

=== Verbundwahrscheinlichkeit ''H''(''X'',''Y'') ===

Gibt es <math>n</math> mögliche Ereignisse <math>x</math> und <math>m</math> mögliche Ereignisse <math>y</math>, so ist die Verbundwahrscheinlichkeit <math>p(x_i,y_j)</math> die Wahrscheinlichkeit dafür, dass je ein Ereignis <math>x_i</math> paarweise mit einem Ereignis <math>y_j</math> auftritt.

Die Wahrscheinlichkeit <math>p(x_i)</math>, dass das Ereignis <math>x_i</math> auftritt, ist die Gesamtwahrscheinlichkeit, dass <math>x_i</math> paarweise mit dem Ereignis <math>y_j</math> auftritt
:<math>p(x_i) = \sum_{j=1}^m p(x_i, y_j)</math>.

Mit der bedingten Wahrscheinlichkeit ergibt sich die Verbundwahrscheinlichkeit dann zu
:<math>p(x_i, y_j) = p(x_i) \cdot p(y_j | x_i) = p(y_j) \cdot p(x_i | y_j) </math>.

Der mittlere Informationsgehalt der Verbundentropie je Ereignispaar statistisch abhängiger Ereignisse ist somit definiert durch:

:<math>H(X,Y) = -\sum_{i=1}^n \sum_{j=1}^m{p(x_i,y_j)} \cdot \log_2( p(x_i,y_j))</math>

== Informationsgehalt bei analogen Signalen ==
Der Informationsgehalt eines einzelnen Werts aus einem analogen Signal ist grundsätzlich unendlich, da die Auftrittswahrscheinlichkeit eines Wertes bei einer kontinuierlichen Wahrscheinlichkeitsverteilung gleich Null ist. Für den mittleren Informationsgehalt eines reellen, kontinuierlichen Signals kann statt der Entropie nach Shannon die [[differentielle Entropie]] berechnet werden.

Alternativ kann das Signal mit Hilfe eines [[Analog-Digital-Umsetzer]]s in ein digitales umgewandelt werden, dabei geht jedoch Information verloren. Da nach der Umsetzung nur noch diskrete Werte vorkommen, kann deren Informationsgehalt wieder bestimmt werden.

== Beispiele für statistisch unabhängige Ereignisse ==
=== Beispiel 1 ===
An einer Quelle tritt ein Zeichen x mit der Wahrscheinlichkeit ''p''(''x'') = 0,0625 auf. Für die maximale Effizienz zur Übertragung in einem Kanal ist eine Information von <math>I(x) = I(0{,}0625) = 4 \text{ bit}</math> für jedes Zeichen x notwendig.

=== Beispiel 2 ===
Gegeben sei eine Zeichenkette „Mississippi“. Sie besteht aus ''n'' = 11 Zeichen. Das Alphabet <math>Z = \{i,M,p,s\}</math> mit den Auftrittswahrscheinlichkeiten

: <math>p(\mathit{i})= \frac{4}{11}, \; p(\mathit{M})=\frac{1}{11}, \; p(\mathit{p})=\frac{2}{11}, \; p(\mathit{s})=\frac{4}{11}</math>

Die Gesamtinformation beträgt:

: <math>
\begin{align}
I_\text{ges} &= \sum_{i=1}^{4} n_i \cdot I({z_i}) \\
&= 4 \cdot I(i) + 1 \cdot I(M) + 2 \cdot I(p) + 4 \cdot I(s) \\
&= 4 \cdot 1{,}46\,\mathrm{bit} + 1\cdot 3{,}46\,\mathrm{bit} + 2\cdot 2{,}46\,\mathrm{bit} + 4\cdot 1{,}46\,\mathrm{bit} \\
&= 5{,}84 \,\mathrm{bit} + 3{,}46 \,\mathrm{bit} + 4{,}92\,\mathrm{bit} + 5{,}84\,\mathrm{bit} \\ &= 20{,}06\,\mathrm{bit}
\end{align}
</math>

Daraus folgt die Gesamtanzahl von 21 Bit, die notwendig ist, um die einzelnen Buchstaben des Wortes „Mississippi“ binär optimal zu kodieren.

=== Beispiel 3 ===
Alphabet ''Z'' = {''a'', ''b''}  mit  ''p''(''a'') = 0,01 und  ''p''(''b'') = 0,99. Die Zeichenkette bestehe aus 100 Zeichen.
* <math>I(a) = 6{,}6439 \text{ bit}</math> (seltenes Auftreten ⇒ hohe Information im Falle des Auftretens)
* <math>I(b) = 0{,}0145 \text{ bit}</math> (häufiges Auftreten ⇒ wenig Information im Falle des Auftretens)

Gesamtinformation: <math>I_\text{ges} = 1 \cdot I(a) + 99 \cdot I(b) \approx 8{,}08 \text{ bit}</math>

Damit folgt eine Gesamtinformation von 9 bit.

== Siehe auch ==
* [[Algorithmische Informationstheorie]]
* [[Auffälligkeit (Informationstheorie)|Auffälligkeit]]
* [[Blockentropie]]
* [[Entropieschätzung]]
* [[Negentropie]]

== Literatur ==
* {{Literatur |Autor=Sebastian Dworatschek |Titel=Grundlagen der Datenverarbeitung |Auflage=8 |Verlag=Walter de Gruyter |Ort=Berlin |Datum=1989 |Sprache=de |ISBN=3-11-012025-9 |Online={{Google Buch |BuchID=e9f0AWprRvQC}}}}
* {{Literatur |Autor=Martin Werner |Titel=Information und Codierung: Grundlagen und Anwendungen |Auflage=2 |Verlag=Vieweg + Teubner |Ort=Wiesbaden |Datum=2008 |Sprache=de |ISBN=978-3-8348-0232-3 |Online={{Google Buch |BuchID=EXMUPuYODTcC}}}}
* {{Literatur |Autor=Werner Heise, Pasquale Quattrocchi |Titel=Informations- und Codierungstheorie: Mathematische Grundlagen der Daten-Kompression und -Sicherung in diskreten Kommunikationssystemen |Auflage=3 |Verlag=Springer |Ort=Berlin / Heidelberg |Datum=1995 |Sprache=de |ISBN=3-540-57477-8 |Online={{Google Buch |BuchID=okBdLAAACAAJ}}}}

== Weblinks ==
* {{Internetquelle |url=https://www.informatik.uni-leipzig.de/~brewka/papers/TheorieI8.pdf |titel=Grundlagen der Informationstheorie |format=PDF; 47,5 kB |sprache=de |abruf=2018-02-16 |abruf-verborgen=1}}
* {{Internetquelle |url=https://www.cits.ruhr-uni-bochum.de/imperia/md/content/may/dimaii08/03_entropie.pdf |titel=Informationsgehalt einer Nachricht |format=PDF; 243 kB |sprache=de |abruf=2018-02-16 |abruf-verborgen=1}}
* {{Internetquelle |url=http://www.ifi.uzh.ch/ee/fileadmin/user_upload/teaching/hs08/form_grund/Informationstheorie.pdf |titel=Informationstheorie |format=PDF; 1,1 MB |sprache=de |archiv-url=https://web.archive.org/web/20160615093820/http://www.ifi.uzh.ch/ee/fileadmin/user_upload/teaching/hs08/form_grund/Informationstheorie.pdf |archiv-datum=2016-06-15 |abruf=2018-02-16 |abruf-verborgen=1}}
* {{Internetquelle |url=https://w3-o.cs.hm.edu/~nischwit/gdi/CODIERG05.pdf |titel=Codierungstheorie |format=PDF; 347 kB |sprache=de |abruf=2018-02-16 |abruf-verborgen=1}}
* {{Internetquelle |url=https://www.bayceer.uni-bayreuth.de/mod/de/lehre/html/35027/ZRA05_10.pdf |titel=Informationsgehalt und Komplexität von Zeitreihen |format=PDF; 3,0 MB |sprache=de |archiv-url=https://web.archive.org/web/20070716185158/https://www.bayceer.uni-bayreuth.de/mod/de/lehre/html/35027/ZRA05_10.pdf |archiv-datum=2007-07-16 |abruf=2018-02-16 |abruf-verborgen=1}}

== Einzelnachweise ==
<references />

[[Kategorie:Information]]
[[Kategorie:Kybernetik]]
[[Kategorie:Informationstheorie]]
[[Kategorie:Statistischer Grundbegriff]]

Informationsgehalt - Versionsgeschichte

imported>Bithisarea: /* growthexperiments-addlink-summary-summary:2|0|0 */