imported>Mantelmoewe: /* growthexperiments-addlink-summary-summary:2|1|0 */

2024-09-11T08:23:55Z

growthexperiments-addlink-summary-summary:2|1|0

Neue Seite

Eine '''Diskriminanzfunktion''' oder '''Trennfunktion''' ist eine [[Funktion (Mathematik)|Funktion]], die bei der [[Diskriminanzanalyse]] jeder Beobachtung einen Scorewert zuordnet. Aus dem Scorewert wird die Gruppenzugehörigkeit jeder Beobachtung und die Grenzen zwischen den Gruppen bestimmt. Bei bekannter Gruppenzugehörigkeit der Beobachtungen werden also die Merkmalsvariablen bei minimalen Informationsverlust zu einer einzigen Diskriminanzvariablen zusammengefasst.

Die '''Fisher’sche Diskriminanzfunktion''' ist die bekannteste Diskriminanzfunktion, die das ''Fisher’sche Kriterium'' realisiert. Sie wurde 1936 von [[Ronald Aylmer Fisher|R. A. Fisher]] entwickelt und beschreibt eine [[Metrischer Raum|Metrik]], die die Güte der Trennbarkeit zweier Klassen in einem [[Merkmalsraum]] misst und wurde 1936 von ihm in ''The use of multiple measurements in taxonomic problems'' veröffentlicht.

== Einleitung ==

Gegeben seien <math>N</math> d-dimensionale Merkmalsvektoren <math>\mathbf{x}</math>, von denen <math>n_1</math> der Klasse <math>C_1</math> und <math>n_2</math> der Klasse <math>C_2</math> angehören. Eine Diskriminanzfunktion beschreibt nun die Gleichung einer [[Hyperebene]], die die Klassen optimal voneinander trennt. Davon gibt es, je nach Trennbarkeit der Klassen, [[Lineare Separierbarkeit|lineare]] und nicht-lineare, was im folgenden Bild in zwei Dimensionen erläutert ist.

[[Datei:Diskriminanzfunktion.png|600px|Beispiele für linear und nicht-linear trennbare Merkmale im zweidimensionalen Raum]]

=== Beispiel ===
[[Datei:Kreditdaten.svg|mini|350px|Gute (blau) und schlechte (rot) Kreditnehmer einer Bank.]]

Die Grafik rechts zeigt gute (blau) und schlechte (rot) Kreditkunden einer Bank. Auf der x-Achse ist das Einkommen und auf der y-Achse die Kreditsumme der Kunden (in Tausend EUR) dargestellt. Die Diskriminanzfunktion ergibt sich zu

:<math>d = -0{,}256 - 0{,}048\text{ Einkommen} + 0{,}007\text{ Kreditsumme}</math>.

Die parallelen schwarzen Linien von links unten nach rechts oben ergeben sich für <math>d=-3, -2, \ldots, 3</math>.

Die Werte der Diskriminanzfunktion für jede Beobachtung sind unterhalb des Datenpunktes angegeben. Man sieht, dass die schlechten Kunden hohe Werte in der Diskriminanzfunktion haben während gute Kunden niedrige Werte erhalten. So könnte eine daraus abgeleitete Regel für neue Kunden sein:

:<math>d=\begin{cases}
\leq 0 & \Rightarrow\text{ guter Kunde}\\
> 0 & \Rightarrow\text{ schlechter Kunde}
\end{cases}</math>

== Lineare Diskriminanzfunktion ==

Wie das einleitende Beispiel zeigt, suchen wir eine Richtung in den Daten, so dass die Gruppen bestmöglich voneinander getrennt werden. In der Grafik ist diese Richtung mit der gestrichelten Linie gekennzeichnet. Die gestrichelte und die schwarze Linie, die sich im schwarzen Punkt kreuzen bilden ein neues ''gedrehtes'' [[Koordinatensystem]] für die Daten.

Solche Drehungen werden mit [[Linearkombination]]en der Merkmalsvariablen beschrieben. Die kanonische lineare Diskriminanzfunktion für <math>p</math> Merkmalsvariablen ist daher gegeben durch:

:<math>D = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_p X_p</math>

mit <math>D</math> der Diskriminanzvariable, <math>X_j</math>'s die Merkmalsvariablen und <math>\beta_j</math> die Diskriminanzkoeffizienten.
Ähnlich zur [[Multiple lineare Regression|multiplen linearen Regression]] werden die Diskriminanzkoeffizienten berechnet; jedoch wird nicht ein quadratischer Fehler für <math>D</math>, sondern bzgl. eines Diskriminanzmaßes optimiert.

[[Datei:Kreditdaten projiziert.svg|mini|Gute (blau) und schlechte (rot) Kreditnehmer und projizierte Datenpunkte (hellblau und hellrot) auf der gestrichelten Linie.]]
Für jede mögliche Richtung werden die Datenpunkte (rote und blaue Punkte) auf die gestrichelte Linie projiziert (hellblaue und hellrote Punkte). Dann werden die Gruppenmittelpunkte (für die hellroten und hellblauen Punkte) und das Gesamtmittel (schwarzer Punkt) bestimmt.

Zum einen wird nun der Abstand jedes hellroten bzw. hellblauen Punktes zu seinem Gruppenmittelpunkt bestimmt und diese quadrierten Abstände aufsummiert zu <math>D_\text{within}</math> ([[Intravarianz]], engl. ''within scatter''). Je kleiner <math>D_\text{within}</math> ist, desto näher liegen die projizierten Punkte an ihren Gruppenmittelpunkten.

Zum anderen wird für jeden hellroten und hellblauen Punkt der Abstand zwischen dem zugehörigen Gruppenmittelpunkt und dem Gesamtmittelpunkt und quadrierten Abstände aufsummiert zu <math>D_\text{between}</math> ([[Intervarianz]], engl. ''between scatter''). Je größer <math>D_\text{between}</math> ist, desto weiter liegen die Gruppenmittelwerte auseinander.

Daher wird die Richtung in den Daten so gewählt, dass

:<math>\lambda = \frac{D_\text{between}}{D_\text{within}}</math>

maximal ist. Je größer <math>\lambda</math> ist, desto deutlicher sind die Gruppen voneinander getrennt.

=== Fisher’sches Kriterium ===

Das Berechnen der optimal trennenden Hyperebene ist in zwei Dimensionen noch relativ einfach, wird jedoch in mehreren Dimensionen schnell zu einem komplexeren Problem. Daher bedient sich Fisher eines Tricks, der zunächst die Dimension reduziert und danach die Diskriminanzfunktion berechnet. Dazu werden die Daten in eine einzige Dimension projiziert, wobei die Projektionsrichtung von entscheidender Bedeutung ist.

Die Klassen sind viel besser voneinander getrennt, wenn die Merkmalsvektoren in Richtung <math>w_2</math> projiziert sind, als in Richtung <math>w_1</math>.

Um diese Tatsache formal zu schreiben, werden ein paar Definitionen benötigt.

Bezeichne <math>\mathbf{m}^{(i)}</math> den Mittelwert der Klasse <math>C_i</math> und <math>\mathbf{m}</math> den Mittelwert des gesamten Merkmalsraumes.

{{Center|<math>S_W = \sum_{\mathbf{x}\in C_1}{(\mathbf{x}-\mathbf{m}^{(1)})(\mathbf{x}-\mathbf{m}^{(1)})^T} + \sum_{\mathbf{x}\in C_2}{(\mathbf{x}-\mathbf{m}^{(2)})(\mathbf{x}-\mathbf{m}^{(2)})^T}</math>}}

heißt [[Intravarianz]] (englisch: within scatter) und misst die Varianz innerhalb der Klassen, während die [[Intervarianz]] (englisch: between scatter)

{{Center|<math>S_B=(\mathbf{m}^{(1)}-\mathbf{m})(\mathbf{m}^{(1)}-\mathbf{m})^T+(\mathbf{m}^{(2)}-\mathbf{m})(\mathbf{m}^{(2)}-\mathbf{m})^T</math>}}

die Varianz zwischen den Klassen beschreibt. Die geeignetste Projektionsrichtung ist dann offensichtlich diejenige, die die ''Intravarianz'' der einzelnen Klassen minimiert, während die ''Intervarianz'' zwischen den Klassen maximiert wird.

Diese Idee wird mit dem ''Fisher’schen Kriterium'' anhand des [[Rayleigh-Quotient]]en mathematisch formuliert:

:<math>J(w)=\frac{|w^TS_Bw|}{|w^TS_Ww|}</math>

Mit diesem Kriterium wird die Güte der Trennbarkeit der Klassen im Merkmalsraum gemessen. Damit gilt dann, dass die Projektionsrichtung <math>w</math> genau dann optimal ist (im Sinne der Trennbarkeit der Klassen), wenn <math>J(w)</math> maximal ist.

Die Erläuterungen lassen bereits erkennen, dass das Fisher’sche Kriterium nicht nur zu einer Diskriminanzfunktion, sondern auch zu einem Optimierungsverfahren für Merkmalsräume erweitert werden kann. Bei letzterem wäre ein Projektionsverfahren denkbar, das einen hochdimensionalen Merkmalsraum ähnlich der [[Hauptkomponentenanalyse]] in eine niedere Dimension projiziert und dabei gleichzeitig die Klassen optimal voneinander trennt.

=== Fisher’sche Diskriminanzfunktion ===
Eine Diskriminanzfunktion ordnet Objekte den jeweiligen Klassen zu. Mit dem '''Fisher’schen Kriterium''' kann bereits die optimale Projektionsrichtung, genauer gesagt der [[Normalenvektor]] der optimal trennenden Hyperebene, bestimmt werden. Es muss dann nur noch für jedes Objekt getestet werden, auf welcher Seite der Hyperebene es liegt.

Dazu wird das jeweilige Objekt zunächst auf die optimale Projektionsrichtung projiziert. Danach wird der Abstand zum Ursprung gegen einen vorher bestimmten Schwellwert <math>w_0</math> getestet. Die '''Fisher’sche Diskriminanzfunktion''' ist demnach von folgender Form:
{{Center|<math>f(\mathbf{x})=\mathbf{w}^T\mathbf{x}-w_0</math>}}

Ein neues Objekt <math>y</math> wird nun je nach Ergebnis von <math>f(y)</math> entweder <math>C_1</math> oder <math>C_2</math> zugewiesen. Bei <math>f(y)=0</math> ist anwendungsabhängig zu entscheiden, ob <math>y</math> überhaupt einer der beiden Klassen zuzuordnen ist.

=== Anzahl von Diskriminanzfunktionen ===

Zur Trennung von <math>K</math> Klassen lassen sich maximal <math>K-1</math> Diskriminanzfunktionen bilden, die [[orthogonal]] (d. h. rechtwinklig bzw. [[Korrelation|unkorreliert]]) sind. Die Anzahl der Diskriminanzfunktionen kann auch nicht größer werden als die Anzahl <math>p</math> der Merkmalsvariablen, die zur Trennung der Klassen bzw. Gruppen verwendet werden:<ref>Backhaus, K., Erichson, B., Plinke, W., Weiber, R. (2008). ''Multivariate Analysemethoden. Eine anwendungsorientierte Einführung.'' Springer: Berlin, S. 200. ISBN 978-3-540-85044-1</ref>

:<math>M = \min(K-1,p)</math>.

=== Standardisierte Diskriminanzkoeffizienten ===

Wie bei der linearen Regression kann man auch mit Hilfe von Merkmalsvariablen, welche den größten Einfluss auf die Diskriminanzvariable haben, die standardisierten Diskriminanzkoeffizienten <math>\beta_i^*</math> des Ziels herauszufinden. Dafür werden die Merkmalsvariablen <math>X_i</math> standardisiert:

:<math>Z_i = \frac{X_i-\bar{x_i}}{s_i}</math>

mit <math>\bar{x}_i</math> das [[Arithmetisches Mittel|arithmetische Mittel]] und <math>s_i</math> die [[Empirische Standardabweichung|Standardabweichung]].
Danach werden die Koeffizienten neu berechnet:

:<math>D= \beta_0^* + \beta_1 Z_1 + \beta_2^* Z_2 + \dots + \beta_p^* Z_p</math>

und es gilt

:<math>\beta_i^* = \beta_i s_i</math>.

{| class="wikitable float-right"
! Variable || Koeffizient || Stand. Koeffizient
|- align="right"
| align="left" | Einkommen
| 0,048 || 1,038
|- align="right"
| align="left" | Kreditsumme
| −0,007 || −1,107
|}
Wäre jetzt einer der standardisierten Koeffizienten aus dem Beispiel nahe Null, dann könnte man die Diskriminanzfunktion vereinfachen, wenn man diese Merkmalsvariable weglässt bei nur geringfügig geringerer Diskriminationskraft.

=== Beispiel ===
Ein einfacher [[Quader-Klassifikator]] soll anhand des Alters <math>x</math> einer Person bestimmen, ob es sich um einen [[Teenager]] handelt oder nicht. Die Diskriminanzfunktion ist

:<math>
g(x)=
\begin{cases}
1 & \text{wenn } 13 \le x \le 19 \\
-1 & \text{sonst}
\end{cases}
</math>

Da der Merkmalsraum eindimensional ist (nur das Alter wird zur Klassifikation herangezogen), sind die Trennflächen-Punkte bei <math>x = 13</math> und <math>x = 19</math>. In diesem Fall muss vereinbart werden, dass die Trennflächen mit zur Klasse „Teenager“ gehören.

== Einzelnachweise ==
<references />

== Literatur ==

* {{Internetquelle |autor=R. Kraft |url=http://web2.wzw.tum.de/dvs/mathstat/biooek99_00/disk.pdf |titel=Diskriminanzanalyse |hrsg=Technische Universität München-Weihenstephan |datum=2000-06-08 |zugriff=2012-10-24 |format=PDF; 99 kB}}
* Christopher M. Bishop, ''Neural Networks for Pattern Recognition'', Oxford University Press, 1995.
* Richard O. Duda and Peter E. Hart, ''Pattern Classification and Scene Analysis'', Wiley-Interscience Publication, 1974.
* Keinosuke Fukunaga, ''Introduction to Statistical Pattern Recognition'', Academic Press, 1990.

[[Kategorie:Multivariate Statistik]]
[[Kategorie:Klassifizierung]]

Diskriminanzfunktion - Versionsgeschichte

imported>Mantelmoewe: /* growthexperiments-addlink-summary-summary:2|1|0 */