imported>Aka: Dateigröße angepasst, deutsch

2025-06-15T20:37:23Z

Dateigröße angepasst, deutsch

Neue Seite

Ein '''Bayes-Klassifikator''' (''[[Internationales Phonetisches Alphabet|IPA]]:'' [{{IPA|ˈbɛɪ̯z.klasifiˌkaːtoːɐ̯}}], {{Audio|De-Bayes-Klassifikator.ogg|anhören}}, benannt nach dem englischen Mathematiker [[Thomas Bayes]]) ist ein aus dem [[Satz von Bayes]] hergeleiteter [[Klassifikator]]. Er ordnet jedes Objekt der Klasse zu, zu der es mit der größten Wahrscheinlichkeit gehört, oder bei der durch die Einordnung die wenigsten Kosten entstehen. Formal handelt es sich um eine mathematische Funktion, die jedem Punkt eines [[Merkmalsraum]]s eine Klasse zuordnet.

Bayes-Klassifikatoren sind Beispiele für [[Bayessches Netz|Bayessche Netze]].

== Definition ==
Ein Bayes-Klassifikator <math>\hat{c}^{\text{Bayes}}</math> ist eine Funktion, die Feature-Vektoren aus dem <math>f</math>-dimensionalen reellwertigen Merkmalsraum auf eine Menge von Klassen <math>C</math> abbildet:

:<math>\hat{c}^{\text{Bayes}}\colon \mathbb{R}^{f} \rightarrow C</math>

Der Bayes-Klassifikator weist einem Feature-Vektor diejenige Klasse zu, deren [[A-posteriori-Wahrscheinlichkeit]] (beim vorliegenden Feature Vektor) maximal ist<ref name="scikit-learn">{{Internetquelle |url=https://scikit-learn.org/stable/modules/naive_bayes.html |titel=1.9. Naive Bayes |sprache=en |abruf=2021-09-29}}</ref>:

:<math>\hat{c}^{\text{Bayes}}(f_1, \dots f_n) = \arg\max_c p(C=c| f_1, \dots f_n) = \arg\max_c \frac{p(C=c) p(f_1, \dots f_n|C=c)}{p(f_1, \dots f_n)} \propto \arg\max_c p(C=c) p(f_1, \dots f_n|C=c),</math>

wobei <math>p(C=c)</math> die apriori Auftrittswahrscheinlichkeit der Klasse <math>c</math> ist und <math>p(f_1, \dots f_n|C=c)</math> die bedingte Auftrittswahrscheinlichkeit der Features <math>f_1,\dots f_n</math> für die gegebene Klasse.
Die apriori Auftrittswahrscheinlichkeit der Klasse <math>c</math> kann zum Beispiel durch die Auftrittshäufigkeit der Klasse im Trainingsdatensatz geschätzt werden.

Beide Formen (Naiver Bayes-Klassifikator und Bayes-Klassifikator) setzen voraus, dass die Wahrscheinlichkeit, dass ein Punkt des Merkmalsraums zu einer bestimmten Klasse gehört, bekannt ist, jede Klasse also durch eine [[Dichtefunktion|Wahrscheinlichkeitsdichte]] beschrieben wird. In der Realität sind diese Dichtefunktionen aber nicht bekannt; man muss sie abschätzen. Dazu vermutet man hinter jeder Klasse einen Typ von [[Wahrscheinlichkeitsverteilung]] – in der Regel eine [[Normalverteilung]] – und versucht anhand der vorhandenen Daten, deren Parameter abzuschätzen.

== Naiver Bayes-Klassifikator ==
[[Bild:Naive corral.png|mini|Beispiel eines Naiven Bayes-Klassifikators, welcher als [[Bayessches Netz]] dargestellt ist]]
Der Naive Bayes-Klassifikator nimmt (in naiver Weise) an, dass die A-posteriori-Verteilung aus Wahrscheinlichkeiten aufgebaut ist, bei denen (bei gegebener Klasse) die Features [[Unabhängige Mengensysteme|unabhängig]] voneinander sind:<ref name="scikit-learn"/>

:<math>\hat{c}^{\text{Bayes}}(f_1, \dots f_n) = \arg\max_c p(C=c| f_1, \dots f_n)\propto \arg\max_c p(C=c) \prod_{i=1}^n p(f_i| C=c)</math>

Aufgrund seiner schnellen Berechenbarkeit bei guter Erkennungsrate ist auch der '''naive Bayes-Klassifikator''' sehr beliebt. Mittels des naiven Bayes-Klassifikators ist es möglich, die Zugehörigkeit eines Objektes (Klassenattribut) zu einer Klasse zu bestimmen. Er basiert auf dem Satz von Bayes. Man könnte einen naiven Bayes-Klassifikator auch als sternförmiges [[Bayessches Netz]] betrachten.

Die naive Grundannahme ist dabei, dass jedes Attribut nur vom Klassenattribut abhängt. Obwohl dies in der Realität selten zutrifft, erzielen naive Bayes-Klassifikatoren bei praktischen Anwendungen häufig gute Ergebnisse, solange die Attribute nicht zu stark korreliert sind.

Für den Fall starker Abhängigkeiten zwischen den Attributen ist eine Erweiterung des naiven Bayes-Klassifikators um einen Baum zwischen den Attributen sinnvoll. Das Ergebnis wird baumerweiterter naiver Bayes-Klassifikator genannt.

== {{Anker|Normalverteilungsklassifikator}} Klassifizierung bei normalverteilten Features ==
Die Entscheidungsgrenze enthält beim Bayes-Klassifikator diejenigen Punkte mit gleicher A-posteriori-Wahrscheinlichkeit (je benachbarter Klasse).
Wird angenommen, dass die bedingten Wahrscheinlichkeiten <math>p(X|C=c) \sim \mathcal{N}(\mu_c, \sigma_c)</math> Normalverteilungen sind, so ist die aus dem Bayes-Klassifikator resultierende Entscheidungsgrenze quadratisch.<ref>[https://www.cs.ubc.ca/~murphyk/Teaching/CS340-Fall07/gaussClassif.pdf Gaussian classifiers] (PDF; 0,6 MB)</ref>

Werden die Normalverteilungen darüber hinaus durch die gleiche [[Kovarianzmatrix]] beschrieben, ist die dazwischen liegende Entscheidungsgrenze sogar linear. In diesen beiden Fällen lässt sich die [[Diskriminanzfunktion]] besonders einfach beschreiben, was die Klassifikation einfach und effizient berechenbar macht.
Soll ein Gaußscher Bayes-Klassifikator eingesetzt werden, so sollten die Features zum Beispiel mit der [[Yeo-Johnson-Transformation]] präprozessiert werden, um sie möglichst normalverteilt zu machen.

== Herleitung ==
Um den Bayes-Klassifikator herzuleiten, wird ein Kostenmaß benötigt, das jeder möglichen Klassifizierung Kosten zuweist. Der Bayes-Klassifikator ist genau derjenige Klassifikator, der die durch alle Klassifizierungen entstehenden Kosten minimiert. Das Kostenmaß wird gelegentlich auch Risikofunktion genannt; man sagt dann, der Bayes-Klassifikator minimiere das Risiko einer Fehlentscheidung und sei über das ''minimum-risk''-Kriterium definiert, siehe auch [[Empirische Risikominimierung]].

Wird ein primitives Kostenmaß verwendet, das ausschließlich bei Fehlentscheidungen Kosten verursacht, so minimiert der Bayes-Klassifikator die Wahrscheinlichkeit einer Fehlentscheidung. Typischerweise wird als Kostenmaß die folgende 0-1 Verlustfunktion gewählt:
:<math>L(x,y)= 1-\delta_{x,y}=\begin{cases}0 & \text{if } x=y \\ 1 & \text{if } x\neq y \end{cases},</math>
wobei <math>\delta_{x,y}</math> das [[Kronecker-Delta]] ist.

Der erwartete Fehler (also die [[Risikofunktion]]) ist dann der Bayes Fehler (EPE):
:<math> EPE = E_x[ \sum_{c \in \{c\}} L(c, \hat{c}(x))P(C=c|x)]</math>

wobei ''x'' ein Feature-Vektor, <math>E[]</math> der [[Erwartungswert]], ''c'' ist eine Klasse, ''P(C=c|x)'' ist die [[bedingte Wahrscheinlichkeit]] einer Klasse c bei gegebenem Feature-Vektor ''x''.
:<math> EPE = E_x \left[ \sum_{c \in \{c\}} L(c, \hat{c}(x))P(C=c|x)\right] =E_x\left[\sum_{c \in \{c\}, c \neq \hat{c}(x)} P(C=c|x)\right] = E_x[1-P(C=\hat{c}(x)|x)] </math>,
wobei das letzte [[Gleichheitszeichen]] aufgrund der [[Gegenwahrscheinlichkeit]] gilt.
Diese Verlustfunktion EPE ist minimal, falls <math>P(C=\hat{c}(x)|x)</math> maximal ist (was durch die Definition des Bayes-Klassifikator gewährleistet wird).

Man sagt dann, der Bayes-Klassifikator sei über das ''Maximum-a-posteriori''-Kriterium definiert.

== Anwendungen ==
Ein Beispiel für eine praktische Anwendung eines Bayes-Klassifikator ist der [[Bayes Spamfilter|Bayes-Spamfilter]].

Der Bayes-Klassifikator auch häufig zur Beurteilung anderer Klassifikatoren verwendet: Man entwirft künstlich einige Klassen und deren Wahrscheinlichkeitsdichten, erzeugt mit diesem Modell eine zufällige [[Stichprobe]] und lässt den anderen Klassifikator die Objekte dieser Stichprobe in Klassen einteilen. Das Ergebnis vergleicht man mit der Einordnung, die der Bayes-Klassifikator vorgenommen hätte. Da der Bayes-Klassifikator in diesem Fall optimal ist (und dann nur der irreduzible [[Bayes-Fehler]] vorliegt), erhält man eine Abschätzung, wie nahe der andere Klassifikator am Optimum liegt. Gleichzeitig liefert der Bayes-Klassifikator eine untere Schranke für die Fehlerwahrscheinlichkeit aller anderen Klassifikatoren in diesem Szenario; besser als der optimale Bayes-Klassifikator können diese nicht werden.

== Einzelnachweise ==
<references />

{{SORTIERUNG:Bayesklassifikator}}
[[Kategorie:Wahrscheinlichkeitsrechnung]]
[[Kategorie:Klassifikationsverfahren]]
[[Kategorie:Bayessche Statistik| ]]

Bayes-Klassifikator - Versionsgeschichte

imported>Aka: Dateigröße angepasst, deutsch