2A02:908:175:1AA0:FC89:98FD:389E:C87F: /* Grundlagen */

2023-02-10T09:48:32Z

Grundlagen

Neue Seite

{{Dieser Artikel | behandelt Boosting im Zusammenhang mit Informatik; zu Boosting als Abart von Doping siehe [[Boosting (Sport)]].}}
{{Belege fehlen|Artikel komplett unbelegt. --[[Spezial:Beiträge/217.186.67.100|217.186.67.100]] 17:16, 28. Okt. 2012 (CET)}}

[[Datei:Klassifizierung.svg|mini|rechts|Klassifizierung in fünf Klassen. Der durch Boosting erzeugte Klassifikator klassifiziert nur in zwei Klassen.]]

'''''Boosting''''' ([[Englische Sprache|engl.]] „Verstärken“) ist ein [[Ensemble learning|Ensemble-learning]]-Algorithmus, der mehrere aufeinander aufbauende [[Klassifikator|Klassifikations-]] oder [[Regressionsanalyse |Regressionsmodelle]] zu einem einzigen Modell verschmilzt.
Die Idee des Boosting wurde 1990 von [[Robert Schapire]] eingeführt.<ref>{{Literatur | Autor=Robert Schapire | Titel=The strength of weak learnability | Sammelwerk=Machine Learning | Band=5 | Nummer=2 | Jahr=1990 | Seiten=197-227 | DOI=10.1007/BF00116037}}</ref> 1997 veröffentlichten [[Yoav Freund]] und Schapire den AdaBoost-Algorithmus.<ref>{{Literatur | Autor=Yoav Freund, Robert E Schapire | Titel=A Decision-Theoretic Generalization of On-Line Learning and an Application to Boosting | Sammelwerk=Journal of Computer and System Sciences | Band=55 | Nummer=1 | Jahr=1997 | Seiten=119-139 | DOI=10.1006/jcss.1997.1504}}</ref> Der Name kommt von der Art, wie der Algorithmus mit den Fehlern der schwächeren Klassifizierer umgeht: Er passt sich diesen an (engl. „'''ad'''justs '''a'''daptively“), indem jedes nachfolgende Modell das vorhergehende Modell verbessert.

== Bedeutung ==
Die Technik liefert akzeptable Ergebnisse und lässt sich einfach in ein [[Computerprogramm]] umsetzen, das sparsam im Speicherbedarf und schnell in der Laufzeit ist.

== Funktionsweise ==
Vorgegeben ist eine Reihe von Objekten und eine Reihe schwacher Klassifikatoren. Gesucht ist ein Klassifikator, der die Objekte möglichst fehlerfrei in zwei Klassen einteilt. Boosting kombiniert die vorhandenen schwachen Klassifikatoren so, dass der entstehende neue Klassifikator möglichst wenige Fehler macht.

Schwache Klassifikatoren, auch ''base classifiers'' (engl. „Basisklassifikatoren“) oder ''weak learners'' (engl. „schwache Lerner“) genannt, sind sehr einfach aufgebaut und berücksichtigen meist nur ein einziges Merkmal der Objekte. Für sich genommen liefern sie deswegen einerseits schlechte Ergebnisse, können aber andererseits sehr schnell ausgewertet werden. Boosting führt alle schwachen Klassifikatoren so mit einer Gewichtung zusammen, dass die stärkeren unter den schwachen Klassifikatoren besonders berücksichtigt, die wirklich schwachen hingegen ignoriert werden.

=== Grundlagen ===
Gegeben ist ein Merkmalsraum <math>M</math> beliebiger Dimension und darin eine Trainingsstichprobe <math>T</math> der Größe <math>n</math>, also eine Menge von Mustervektoren <math>x_1, \dots, x_n</math>. Von jedem dieser Mustervektoren ist bekannt, in welche Klasse er gehört, das heißt zu jedem <math>x_i</math> ist ein <math>y_i \in {+1, -1}</math> gegeben, das angibt, in welche der beiden Klassen +1 oder −1 der Mustervektor gehört. Ferner sind <math>m</math> primitive Klassifikatoren <math>f_1, f_2, \dots, f_m: M \rightarrow {+1, -1}</math> gegeben, die jeweils den Merkmalsraum in die beiden Klassen <math>+1</math> und <math>-1</math> aufspalten.

Gesucht sind die m Gewichtungsfaktoren <math>w_1, \dots, w_m</math> des Klassifikators <math>F: M \rightarrow {+1, -1}</math>, der über die [[Vorzeichenfunktion]] <math>\sgn</math> durch
: <math>F(x) := \sgn\left(\sum_{i=1}^m w_i f_i(x)\right)</math>
gegeben ist. Die Gewichtungsfaktoren sollen so optimiert werden, dass <math>F</math> möglichst wenige Fehler macht.

Für die Optimierung bietet sich eine über die [[Exponentialfunktion|Exponentialfunktion <math>\mathrm{e}</math>]] definierte, sogenannte „exponentielle Verlustfunktion“ L als Optimierungskriterium an:
: <math> L := \frac{1}{n} \sum_{i=1}^n \mathrm{e}^{-y_i F(x_i)} \rightarrow \text{min}</math>
<math>L</math> wird umso kleiner, je weniger Objekte <math>F</math> falsch klassifiziert. Das Ziel ist also, die Gewichtungsfaktoren so zu wählen, dass <math>L</math> minimal wird.

Diese Optimierung wird schrittweise über <math>m</math> ausgeführt, das heißt zunächst wird nur <math>w_1</math> optimiert, dann <math>w_2</math>, dann <math>w_3</math> und so weiter, bis alle Gewichtungsfaktoren optimal sind. Die Optimierung wird im nächsten Abschnitt erläutert.

=== Schrittweise Optimierung ===
Die schrittweise Optimierung benötigt m Durchläufe, um alle Gewichtungsfaktoren für F zu optimieren. In jedem Durchlauf wird ein Klassifikator Fs erzeugt, indem zum bisher erzeugten Klassifikator Fs−1 ein schwacher Klassifikator hinzugenommen wird. Das bedeutet, dass der Benutzer die Berechnung nach jedem Durchlauf abbrechen kann, falls das Zwischenergebnis bereits seinen Ansprüchen genügt.

Vor jedem Durchlauf wird beurteilt, welche Mustervektoren mit dem bislang erstellten Klassifikator gut eingeordnet werden können und welche nicht. Diejenigen Mustervektoren, die noch nicht gut klassifiziert werden, werden im nächsten Durchlauf besonders stark berücksichtigt. Dazu werden in jedem Durchlauf s n Hilfsvariablen ts,1, …, ts,n benötigt. Je höher der Wert von ts,i, desto stärker geht der Mustervektor xi in den aktuellen Durchgang ein.

Die Nummer des Durchgangs ist s:

1. '''Gewichte aktualisieren.'''
: Im ersten Durchlauf (s = 1) werden alle Hilfsvariablen auf den Wert 1/n gesetzt: t1,1, …, t1,n:= 1/n; somit werden im ersten Durchgang alle Mustervektoren gleich stark berücksichtigt. In allen folgenden Durchläufen (s > 1) werden die Hilfsvariablen wie folgt gesetzt:
:: <math>t_{s,i} := t_{s-1,i} \mathrm{e}^{-y_i w_{s-1} f_{s-1}(x_i) }</math>
: Damit werden alle Mustervektoren, die vom eben betrachteten schwachen Klassifikator fs−1 falsch klassifiziert wurden, in diesem Durchlauf mit einem besonders hohen Hilfsgewicht versehen, alle anderen mit einem besonders geringen.

2. '''Gewichteten Trainingsfehler bestimmen.'''
: In diesem Durchgang wird der schwache Klassifikator fs hinzugenommen. Der „gewichtete Trainingsfehler“ ist ein Maß dafür, wie schlecht dieser primitive Klassifikator für sich genommen abschneidet. Für jeden von fs falsch klassierten Mustervektor xi summiert er die zugehörige Hilfsvariable ts,i auf:
:: <math>err_s := \sum_{i: f_s(x_i) \ne y_i} t_{s,i}</math>
: Ist der gewichtete Trainingsfehler 0, so klassifiziert fs alle Mustervektoren richtig, ist er 1, so klassifiziert fs alles falsch. Ist errs = 1/2, so klassifiziert fs genauso gut, als würde er bei jedem Mustervektor bloß raten oder eine Münze werfen.

3. '''Nächsten Gewichtungsfaktor optimieren.'''
: Der Gewichtungsfaktor ws des in diesem Durchgang hinzugenommenen primitiven Klassifikators fs wird aus der folgenden Formel bestimmt:
:: <math>w_s = \frac{1}{2} \log \left( \frac{1-err_s}{err_s} \right)</math>
: Nach der Formel wird fs genau dann mit positivem Gewicht zum Endergebnis hinzugenommen, wenn errs < ½ gilt, das heißt der schwache Klassifikator besser ist als bloßes Raten. Gilt exakt errs = ½, so folgt ws = 0, das heißt fs wird ignoriert. Gilt hingegen errs > ½, so ist der schwache Klassifikator durchaus brauchbar, er ist nur „falsch gepolt“, das heißt, er klassifiziert genau falsch herum; indem er mit einem negativen Gewicht hinzugenommen wird, kann dieser Formfehler ausgeglichen werden und der umgedrehte Klassifikator mit verstärkendem Effekt hinzugenommen werden.

4. '''Zwischenergebnis aufstellen.'''
: Das Zwischenergebnis Fs ergibt sich aus der Formel:
:: <math>F_s(x) := \sum_{i=1}^s w_i f_i(x)</math>
: Es wird also genauso berechnet wie das eigentliche Ziel F, nur dass statt aller m schwachen Klassifikatoren nur die ersten s bereits optimierten berücksichtigt werden.

Diese Schritte werden in dieser Reihenfolge wiederholt, bis alle schwachen Klassifikatoren berücksichtigt wurden, also s = m ist, oder der Benutzer den Fortgang abbricht.

=== Schwache Klassifikatoren ===
Typische schwache Klassifikatoren sind sogenannte ''decision stumps'' (engl. „Entscheidungsstümpfe“). Diese Funktionen vergleichen den Wert einer einzelnen Koordinate j mit einem Schwellwert l und begründen damit ihre Entscheidung für +1 oder −1. Ist x:= (x1, …, xd) ∈ M ein Mustervektor im d-dimensionalen Merkmalsraum M, so hat ein solcher primitiver Klassifikator f im Allgemeinen die Form:
: <math>f(x) = f((x_1, x_2, \dots, x_d)) := \begin{cases} +1 & \text{falls } x_j \geqslant l \\ -1 & \text{falls } x_j < l \end{cases}</math>
Genauer gesagt unterteilt f den Merkmalsraum mit einer [[Hyperebene]] in zwei Klassen.

Der Name spielt auf die Analogie zu [[Entscheidungsbaum|Entscheidungsbäumen]] an: Der erzeugte Gesamtklassifikator F kann als Entscheidungsbaum angesehen werden. Jeder schwache Klassifikator ist ein innerer Knoten dieses Baumes, an dem ein Unterbaum (vgl. engl. ''stump'', „(Baum)Stumpf“) hängt. Die endgültige Klassifizierung in einem der Blätter des Baums wird als Folge binärer Entscheidungen (engl. ''decision'') erreicht.

Solche ''decision stumps'' sind als Grundlage für Boosting sehr beliebt, denn sie sind einfach zu handhaben und können extrem schnell ausgewertet werden. Zudem müssen sie nicht von Anfang an vorgegeben sein, sondern können erstellt werden, während der Algorithmus läuft.

== Unterarten von Boosting ==
* [[AdaBoost]]
* [[AsymBoost]]
* [[BrownBoost]]
* [[DiscreteAB]]
* [[FloatBoost]]
* [[GentleAB]]
* [[GloBoost]]
* [[KLBoost]]
* [[LogitBoost]]
* [[RealAB]]
* [[WeightBoost]]
* [[GradientBoost]] (zum Beispiel [[XGBoost]])

== Siehe auch ==
* [[Bagging]]

== Einzelnachweise ==
<references/>

[[Kategorie:Klassifizierung]]
[[Kategorie:Multivariate Statistik]]

Boosting - Versionsgeschichte

2A02:908:175:1AA0:FC89:98FD:389E:C87F: /* Grundlagen */