<?xml version="1.0"?>
<feed xmlns="http://www.w3.org/2005/Atom" xml:lang="de">
	<id>https://wiki-de.moshellshocker.dns64.de/index.php?action=history&amp;feed=atom&amp;title=Random_Forest</id>
	<title>Random Forest - Versionsgeschichte</title>
	<link rel="self" type="application/atom+xml" href="https://wiki-de.moshellshocker.dns64.de/index.php?action=history&amp;feed=atom&amp;title=Random_Forest"/>
	<link rel="alternate" type="text/html" href="https://wiki-de.moshellshocker.dns64.de/index.php?title=Random_Forest&amp;action=history"/>
	<updated>2026-05-21T14:11:16Z</updated>
	<subtitle>Versionsgeschichte dieser Seite in Wikipedia (Deutsch) – Lokale Kopie</subtitle>
	<generator>MediaWiki 1.43.8</generator>
	<entry>
		<id>https://wiki-de.moshellshocker.dns64.de/index.php?title=Random_Forest&amp;diff=1577672&amp;oldid=prev</id>
		<title>imported&gt;Horst Gräbner: keine korrekte Belegangabe</title>
		<link rel="alternate" type="text/html" href="https://wiki-de.moshellshocker.dns64.de/index.php?title=Random_Forest&amp;diff=1577672&amp;oldid=prev"/>
		<updated>2026-02-11T16:26:14Z</updated>

		<summary type="html">&lt;p&gt;keine korrekte Belegangabe&lt;/p&gt;
&lt;p&gt;&lt;b&gt;Neue Seite&lt;/b&gt;&lt;/p&gt;&lt;div&gt;[[Datei:Random forest explain.png|mini|Ein Random Forest.]]&lt;br /&gt;
&amp;#039;&amp;#039;&amp;#039;Random Forest&amp;#039;&amp;#039;&amp;#039; ({{deS|Zufallswald}}) oder &amp;#039;&amp;#039;&amp;#039;Random Decision Forest&amp;#039;&amp;#039;&amp;#039; ist ein Verfahren, das beim [[Maschinelles Lernen|maschinellen Lernen]] eingesetzt wird. Es handelt sich um eine [[Ensemble learning|Ensemblemethode]], die bei [[Klassifikationsverfahren|Klassifikations-]] und [[Regressionsanalyse|Regressionsverfahren]] eingesetzt wird.&lt;br /&gt;
Beim Training werden mehrere möglichst [[Korrelation|unkorrelierte]] [[Entscheidungsbaum|Entscheidungsbäume]] erzeugt. Dabei wird jeder Entscheidungsbaum mit einer anderen, zufällig ausgewählten [[Stichprobe]] der Trainingsdaten trainiert. Zusätzlich berücksichtigt jeder Baum für die Aufteilung der Objekte aus seiner Stichprobe an jedem Knoten nur eine zufällig gewählte [[Teilmenge]] aller Merkmale. Anschließend werden alle Bäume zu einem Ensemble, dem Random Forest bzw. [[Wald (Graphentheorie)]], kombiniert.&lt;br /&gt;
&lt;br /&gt;
Das Ergebnis des Random Forests wird mit Hilfe einer [[Aggregatfunktion]] aus den Ergebnissen aller Bäume gebildet. Bei Klassifikationsaufgaben entspricht das Ergebnis der Klasse, die die meisten Bäume gewählt haben. Bei Regressionsaufgaben wird das Ergebnis als [[Mittelwert]] der Ergebnisse aller Bäume gebildet. Der Einsatz von Random Forests korrigiert Abweichungen, die die Ergebnisse von einzelnen Entscheidungsbäumen aufgrund von [[Überanpassung]] aufweisen.&lt;br /&gt;
&lt;br /&gt;
&amp;#039;&amp;#039;Random Forests&amp;#039;&amp;#039; ist außerdem ein von [[Leo Breiman]] und Adele Cutler eingetragenes Warenzeichen für ein gleichnamiges Softwarepaket.&lt;br /&gt;
&lt;br /&gt;
== Geschichte ==&lt;br /&gt;
Der erste Artikel, der die Eigenschaften von Random Decision Forests untersucht, wurde von Tin Kam Ho im Jahr 1995 veröffentlicht.&amp;lt;ref name=&amp;quot;Ho1995&amp;quot;&amp;gt;Tin Kam Ho, Random Decision Forests, Proceedings of the 3rd International Conference on Document Analysis and Recognition, Montreal, Canada, August 14-18, 1995, 278-282, [[doi:10.1109/ICDAR.1995.598994]].&amp;lt;/ref&amp;gt; Ho untersuchte Random Decision Forests, die sie aus mehreren Entscheidungsbäumen bildete. Dabei gehörten alle Bäume zu einer bestimmten Art von Entscheidungsbäumen (Aufteilung an einer schiefen [[Hyperebene]]). Sie stellte fest, dass diese Random Decision Forests mit zunehmendem Wachstum weiter an Genauigkeit gewinnen können, ohne dass es dabei zu einer Überanpassung kommt, falls jeder einzelne Entscheidungsbaum so eingeschränkt wird, dass er für die Aufteilung an jedem Knoten nur eine zufällig gewählte Teilmenge aller Merkmale berücksichtigt. Dieses Verfahren nannte sie Random Subspace Methode. In einer späteren Arbeit zeigte Ho, dass auch Random Decision Forests aus anderen Arten von Entscheidungsbäumen bessere Vorhersagen liefern als einzelne Entscheidungsbäume.&amp;lt;ref name=&amp;quot;ho1998&amp;quot;&amp;gt;{{Literatur |Autor=Tin Kam Ho |Titel=The Random Subspace Method for Constructing Decision Forests |Sammelwerk=IEEE Transactions on Pattern Analysis and Machine Intelligence |Band=20 |Nummer=8 |Datum=1998 |Seiten=832–844 |Sprache=de |Online=http://ect.bell-labs.com/who/tkh/publications/papers/df.pdf |Format=PDF |DOI=10.1109/34.709601}}&amp;lt;/ref&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Die Grundlagen für das heutzutage als Random Forest bekannte Verfahren wurden im Jahr 2001 von [[Leo Breiman]] veröffentlicht.&amp;lt;ref name=&amp;quot;breiman2001&amp;quot;&amp;gt;L. Breiman, Random forests. In: &amp;#039;&amp;#039;Machine Learning.&amp;#039;&amp;#039; Band 45, Nr. 1, 2001, S. 5–32, [[doi:10.1023/A:1010933404324]].&amp;lt;/ref&amp;gt; Der Artikel beschreibt ein Verfahren, das unkorrelierte Bäume erzeugt. Dabei optimiert Breiman den [[CART (Algorithmus)|CART-Algorithmus]] mit der Random Subspace Methode und er erzeugt mit [[Bagging]] für jeden Baum eine andere Stichprobe des Trainingsdatensatzes. Außerdem beschreibt er, wie man den Vorhersagefehler für neue Daten ({{enS|generalization error}}) abschätzen kann und wie man die Bedeutung, die einzelne [[Statistische Variable|Merkmale]] für das Ergebnis haben, messen kann.&lt;br /&gt;
&lt;br /&gt;
== Grundlagen ==&lt;br /&gt;
=== Maschinelles Lernen mit Entscheidungsbäumen ===&lt;br /&gt;
Ein Entscheidungsbaum besteht aus Knoten und Blättern. Dabei repräsentiert jeder Knoten eine logische [[Regel (Richtlinie)|Regel]] und jedes Blatt eine Antwort auf das Entscheidungsproblem. Beim maschinellen Lernen werden die Regeln aus einem Datensatz mit Trainingsdaten gelernt. Für jeden Knoten wird eine Regel gelernt, die bestimmt, wie die Objekte aus den Trainingsdaten auf die beiden Folgeknoten aufgeteilt werden. Der CART-Algorithmus ist ein bekannter Algorithmus, der einen [[Binärbaum]] erzeugt, der zur Lösung von Aufgaben zur Klassifikation oder Regression eingesetzt werden kann.&lt;br /&gt;
&lt;br /&gt;
Das Konzept der Entscheidungsbäume ist einfach und mächtig. Der Trainingsaufwand ist gering. Es ist unempfindlich gegenüber [[Ausreißer]]n und irrelevanten Merkmalen und funktioniert deshalb gut mit Daten, die nicht aufwendig aufbereitet wurden. Deshalb werden Entscheidungsbäume gerne beim [[Data-Mining]] eingesetzt. Allerdings sind solche Bäume nur selten genau. Insbesondere tendieren sehr tiefe Bäume dazu, fehlerhafte Muster zu erlernen. Sie passen sich ihren Trainingsmengen zu sehr an und zeigen dann eine geringe Verzerrung und eine sehr hohe Varianz.&amp;lt;ref name=&amp;quot;ElemStatLearn&amp;quot;&amp;gt;{{Literatur |Autor=Trevor Hastie, Robert Tibshirani, Jerome Friedman |Titel=The Elements of Statistical Learning |Auflage=2. |Verlag=Springer |Datum=2017 |Seiten=352 |Sprache=de |Online=https://hastie.su.domains/ElemStatLearn/}}&amp;lt;/ref&amp;gt; Siehe auch [[Verzerrung-Varianz-Dilemma]].&lt;br /&gt;
&lt;br /&gt;
Ein Random Forest mittelt über mehrere tiefe Entscheidungsbäume, die auf verschiedenen Teilen desselben Trainingssatzes trainiert wurden. Dadurch wird die Varianz verringert und in der Regel die Leistung des endgültigen Modells erheblich gesteigert. Die Nachteile bestehen in einer geringen Erhöhung der Verzerrung und einem komplexeren Modell.&lt;br /&gt;
&lt;br /&gt;
=== Bagging ===&lt;br /&gt;
{{Hauptartikel|Bootstrap aggregating}}&lt;br /&gt;
[[Datei:Random Forest Bagging Illustration.png|mini|Illustration zum Training eines Random Forest Modells mit Bagging. Aus den Trainingsdaten (hier mit 250 Zeilen und 100 Spalten) werden durch Ziehen mit Zurücklegen zufällig &amp;#039;&amp;#039;B&amp;#039;&amp;#039; Datensätze des Umfangs &amp;#039;&amp;#039;n&amp;#039;&amp;#039; gezogen. Danach wird mit jedem der &amp;#039;&amp;#039;B&amp;#039;&amp;#039; Datensätze je ein Entscheidungsbaum  trainiert. Anschließend werden die Ergebnisse der &amp;#039;&amp;#039;B&amp;#039;&amp;#039; Bäume gemittelt, um das endgültige Ergebnis zu erhalten.]]&lt;br /&gt;
Der Trainingsalgorithmus von Random Forests verwendet das Verfahren [[Bootstrap aggregating]], auch Bagging genannt.&lt;br /&gt;
&lt;br /&gt;
Zunächst werden aus dem Originaldatensatz, der für das Training dient, mit dem [[Bootstrapping-Verfahren]] &amp;#039;&amp;#039;B&amp;#039;&amp;#039; neue Stichproben des Umfanges &amp;lt;math&amp;gt;n&amp;lt;/math&amp;gt; durch [[Ziehen mit Zurücklegen]] erzeugt. Mit den neuen Stichproben werden &amp;lt;math&amp;gt;B&amp;lt;/math&amp;gt; Vorhersagemodelle &amp;lt;math&amp;gt;m_i&amp;lt;/math&amp;gt; (&amp;lt;math&amp;gt;i=1, \dots, B&amp;lt;/math&amp;gt;) trainiert. Für einen Wert &amp;lt;math&amp;gt;x&amp;lt;/math&amp;gt; ergeben sich dann &amp;lt;math&amp;gt;B&amp;lt;/math&amp;gt; Vorhersagewerte &amp;lt;math&amp;gt;m_i(x)&amp;lt;/math&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
Nach dem Training können Vorhersagen für einen neuen Wert &amp;lt;math&amp;gt;x&amp;#039;&amp;lt;/math&amp;gt; aus dem Durchschnitt der Vorhersagen der einzelnen Bäume gebildet werden.&lt;br /&gt;
&lt;br /&gt;
:&amp;lt;math&amp;gt;\hat{f} = \frac{1}{B} \sum_{b=1}^Bf_b (x&amp;#039;)&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
oder, bei Klassifikatoren, durch die Mehrheitsentscheidung aller Bäume.&lt;br /&gt;
&lt;br /&gt;
Diese Methode verbessert das Ergebnis, weil sie die Varianz verringert. Die Vorhersagen einzelner Bäume sind viel anfälliger für Rauschen in den Trainingsdaten als der Durchschnittswert von Bäumen, die nicht miteinander korrelieren. Das Bootstrapping-Verfahren ermöglicht es durch die Erzeugung unterschiedlicher Trainingsdatensätze, Bäume zu erzeugen, die nicht miteinander korrelieren.&lt;br /&gt;
&lt;br /&gt;
Außerdem kann man die Größe des Vorhersagefehlers (siehe [[Konfidenzintervall]]) an der Stelle &amp;lt;math&amp;gt;x&amp;#039;&amp;lt;/math&amp;gt; mithilfe der Standardabweichungen der einzelnen Bäume einfach abschätzen:&lt;br /&gt;
&lt;br /&gt;
:&amp;lt;math&amp;gt;\sigma = \sqrt{\frac{\sum_{b=1}^B (f_b(x&amp;#039;)  - \hat{f})^2}{B-1} }.&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Die Anzahl &amp;lt;math&amp;gt;B&amp;lt;/math&amp;gt; der Bäume kann frei gewählt werden. Ein typischer Wert liegt bei mehreren hundert oder tausend Bäumen. Ein optimaler Wert kann mit [[Kreuzvalidierungsverfahren]] bestimmt werden oder durch die Beobachtung des [[#Out-of-bag error|out-of-bag errors]].&lt;br /&gt;
&lt;br /&gt;
=== Vom Bagging zum Random Forest ===&lt;br /&gt;
Oben wird das ursprüngliche Bagging-Verfahren beschrieben, das mehrere zufällige Stichproben zum Trainieren von Entscheidungsbäumen zieht. Die Erfinder des Random-Forest-Verfahrens setzen dieselbe Idee auch zum Trainieren der einzelnen Bäume ein. Der Trainingsalgorithmus wurde so angepasst, dass bei jeder Aufteilung nur eine zufällig gewählte Teilmenge aller Merkmale berücksichtigt wird. Dieses Verfahren wird Random Subspace Methode&amp;lt;ref name=&amp;quot;ho1998&amp;quot; /&amp;gt; oder Feature Bagging genannt. Es verhindert eine mögliche Korrelation der Bäume für bestimmte Stichproben: wenn ein oder mehrere Merkmale sehr großen Einfluss für die Vorhersage haben, dann wird das ohne die Random Subspace Methode dazu führen, dass diese Merkmale in vielen Bäumen ähnlich ausgewertet werden und die Bäume korrelieren. Eine Analyse dazu, wie Bagging und die Random Subspace Methode die Qualität der Vorhersage verbessern, hat Ho veröffentlicht.&amp;lt;ref name=&amp;quot;ho2002&amp;quot;&amp;gt;{{Literatur |Autor=Tin Kam Ho |Titel=A Data Complexity Analysis of Comparative Advantages of Decision Forest Constructors |Sammelwerk=Pattern Analysis and Applications |Band=5 |Nummer=2 |Datum=2002 |Seiten=102–112 |Sprache=en |Online=http://ect.bell-labs.com/who/tkh/publications/papers/compare.pdf |Abruf=2024-01-03 |DOI=10.1007/s100440200009}}&amp;lt;/ref&amp;gt;&lt;br /&gt;
&lt;br /&gt;
== Algorithmus ==&lt;br /&gt;
Jeder Entscheidungsbaum im Random Forest wird mit folgendem [[Algorithmus]] erzeugt:&amp;lt;ref name=&amp;quot;ElemStatLearn&amp;quot; details=&amp;quot;S.&amp;amp;nbsp;588&amp;quot; /&amp;gt;&lt;br /&gt;
# Ziehe ein [[Bootstrapping-Verfahren|Bootstrap]]-Sample mit &amp;lt;math&amp;gt;N&amp;lt;/math&amp;gt; Datensätzen aus dem Trainingsdatensatz durch [[Ziehen mit Zurücklegen]].&lt;br /&gt;
# Benutze das Bootsstrap-Sample, um den Entscheidungsbaum wachsen zu lassen. Wiederhole die folgenden Schritte rekursiv für jeden Knoten des Baums, bis die minimale Knotengröße erreicht ist.&lt;br /&gt;
## Wähle aus den &amp;lt;math&amp;gt;M&amp;lt;/math&amp;gt; Merkmalen (Features oder Dimensionen) der Trainingsdaten zufällig &amp;lt;math&amp;gt;m \ll M&amp;lt;/math&amp;gt; Merkmale aus.&lt;br /&gt;
## Wähle aus den &amp;lt;math&amp;gt;m&amp;lt;/math&amp;gt; Merkmalen das Merkmal aus, das sich am besten für die nächste Aufteilung (Split) eignet. Das Merkmal und sein Split-Wert können zum Beispiel mittels der Minimierung der [[Entropie (Informationstheorie)|Entropie]] oder des Mean-Squared Errors ausgewählt werden, siehe [[CART (Algorithmus)]]&lt;br /&gt;
## Teile die Objekte im Knoten auf seine beiden Folgeknoten auf.&lt;br /&gt;
&lt;br /&gt;
Die so erzeugten Bäume bilden zusammen den Random Forest. Da jeder Baum des Random-Forest unabhängig von den anderen Bäumen aufgebaut wird, kann die Antwort der einzelnen Bäume unterschiedlich ausfallen. Um zu einer Gesamt-Vorhersage zu gelangen, wird über die Vorhersage der einzelnen Bäume aggregiert:&lt;br /&gt;
* Bei der Klassifikation wird einfach die Klasse zurückgeliefert, die am häufigsten gewählt wurde. Wenn es mehrere Klassen gibt, die am häufigsten gewählt wurden, muss man sich anderweitig für eine entscheiden.&lt;br /&gt;
* Bei der Regression kann beispielsweise der Mittelwert der Vorhersagen gebildet werden.&lt;br /&gt;
&lt;br /&gt;
Man kann das Training eines Random Forest durch viele [[Konfiguration (Computer)|Konfigurationsparameter]] beeinflussen. Dazu zählt unter anderem, welche und wie viele [[Entscheidungsbaum|Entscheidungsbäume]] aufgebaut werden und ob eine maximale Tiefe der Bäume vorgegeben wird.&lt;br /&gt;
&lt;br /&gt;
Die Erfinder des Random-Forest-Verfahrens empfehlen als typische Werte für ein Klassifikationsproblem mit &amp;lt;math&amp;gt;M&amp;lt;/math&amp;gt; Merkmalen &amp;lt;math&amp;gt;m=\sqrt M&amp;lt;/math&amp;gt; (abgerundet) Merkmale und eine minimale Knotengröße von 1. Für Regressionsprobleme empfehlen sie m=&amp;lt;math&amp;gt;M/3&amp;lt;/math&amp;gt; (abgerundet) Merkmale und eine minimale Knotengröße von 5. In der praktischen Anwendung hängen die optimalen Werte vom Problem ab und sollten an das gegebene Problem angepasst werden.&amp;lt;ref name=&amp;quot;ElemStatLearn&amp;quot; details=&amp;quot;S.&amp;amp;nbsp;592&amp;quot; /&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Bosch et al.&amp;lt;ref name=&amp;quot;Bosch2007&amp;quot;&amp;gt;Anna Bosch, Andrew Zisserman, Xavier Muñoz: &amp;#039;&amp;#039;Image classification using random forests and ferns.&amp;#039;&amp;#039; ICCV 2007. IEEE 11th International Conference on Computer Vision, S. 1–8, [[doi:10.1109/ICCV.2007.4409066]].&amp;lt;/ref&amp;gt; speichern zusätzlich in jedem Blatt die [[A-posteriori-Wahrscheinlichkeit]]en der Klassen, mit denen sie das Blatt finden. Diese Wahrscheinlichkeiten werden anschließend bei der Klassifikation berücksichtigt. Dadurch kann die Fehlerrate des Klassifikators verringert werden.&lt;br /&gt;
&lt;br /&gt;
== Eigenschaften ==&lt;br /&gt;
Eine große Anzahl [[unkorreliert]]er [[Baum (Datenstruktur)|Bäume]] macht genauere Vorhersagen möglich als ein einzelner Entscheidungsbaum. Dies liegt daran, dass durch Aggregierung unkorrelierter Ergebnisse die Streuung des aggregierten Wertes sinkt (vergleiche [[Standardfehler]] des Mittelwertes). Da die einzelnen Bäume unabhängig wachsen (da sie jeweils das beste Merkmal unter einer zufälligen Teilmenge von Merkmalen als Split benutzen), sind ihre Vorhersagen per Konstruktion nicht perfekt korreliert.&lt;br /&gt;
&lt;br /&gt;
=== Vorteile ===&lt;br /&gt;
Ein Random Forest hat bei Klassifikations- und Regressionsproblemen folgende wesentlichen Vorteile gegenüber anderen Klassifikationsmethoden:&amp;lt;ref name=&amp;quot;IBM&amp;quot;&amp;gt;IBM: [https://www.ibm.com/topics/random-forest What is random forest?]&amp;lt;/ref&amp;gt;&lt;br /&gt;
&lt;br /&gt;
* Ein Random Forest kann sowohl Regressionsprobleme als auch Klassifizierungsprobleme mit großer Genauigkeit lösen. Man kann eine Überanpassung durch Kreuzvalidierungen erkennen und dadurch vermeiden, dass man eine ausreichende Anzahl von Bäumen erzeugt.&lt;br /&gt;
* Der Klassifikator trainiert sehr schnell: Dieser Vorteil ergibt sich durch die kurze Trainings- bzw. Aufbauzeit eines einzelnen Entscheidungsbaumes und dadurch, dass die Trainingszeit bei einem Random Forest linear mit der Anzahl der Bäume steigt.&lt;br /&gt;
* Die Evaluierung eines Testbeispieles geschieht auf jedem Baum einzeln und ist daher parallelisierbar. Er evaluiert also schnell.&lt;br /&gt;
* Er ist sehr effizient für große Datenmengen (viele Trainingsbeispiele, viele Merkmale).&lt;br /&gt;
* Er kann auch für die Schätzung fehlender Werte verwendet werden, weil er die Genauigkeit beibehält, wenn ein Teil der Daten fehlt.&lt;br /&gt;
* Random Forests erleichtern es, die Bedeutung einer Variable oder eines Merkmals für ein Modell zu bewerten. Durch Berechnung der erwarteten Impurity-Verringerung kann eine [[#Feature Importance|Feature Importance]] angegeben werden.&lt;br /&gt;
* Random Forests können große Datensätze verarbeiten und besitzen eine nach oben skalierbare Modellkapazität. Da sie zusätzlich nichtlineare Zusammenhänge beschreiben können, liefern sie bei guter Anpassung häufig gute Ergebnisse.&lt;br /&gt;
&lt;br /&gt;
=== Nachteile ===&lt;br /&gt;
Ein Random Forest hat bei Klassifikations- und Regressionsproblemen folgende wesentlichen Nachteile gegenüber anderen Klassifikationsmethoden:&amp;lt;ref name=&amp;quot;IBM&amp;quot; /&amp;gt;&lt;br /&gt;
&lt;br /&gt;
* Die Trainingszeit wächst mit der Zahl der Bäume, weil jeder Baum einzeln berechnet wird.&lt;br /&gt;
* Random Forests belegen mehr Speicherplatz als kleine, einfachere Modelle.&lt;br /&gt;
* Das Modell ist komplexer und deshalb schwieriger zu interpretieren als das von einem einzelnen Entscheidungsbaum.&lt;br /&gt;
&lt;br /&gt;
=== Out-of-bag error ===&lt;br /&gt;
Out-of-bag (OOB) error, auch out-of-bag estimate, ist eine Methode, um den Vorhersagefehler von Random Forests zu messen. Als Folge des Baggings enthält die Bootstrap-Stichprobe, mit der ein einzelner Baum trainiert wird, nicht alle Datenpunkte aus dem Trainingsdatensatz. Zur Berechnung des out-of-bag-errors bestimmt man den gemittelten Vorhersagefehler für alle Trainingsdatenpunkte &amp;lt;math&amp;gt;x_i&amp;lt;/math&amp;gt;, wobei man nur die Bäume berücksichtigt, die &amp;lt;math&amp;gt;x_i&amp;lt;/math&amp;gt; nicht in ihrer Bootstrap-Stichprobe enthalten.&lt;br /&gt;
&lt;br /&gt;
=== Feature Importance ===&lt;br /&gt;
Mit Hilfe von Random Forests kann die Bedeutung von Merkmalen für Klassifikationsaufgaben und Regressionsaufgaben einfach bestimmt werden. Die folgende Methode ist in Breimans Artikel&amp;lt;ref name=&amp;quot;breiman2001&amp;quot; /&amp;gt; beschrieben und in dem [[R (Programmiersprache)|R]] Softwarepaket &amp;#039;&amp;#039;randomForest&amp;#039;&amp;#039; umgesetzt.&amp;lt;ref name=&amp;quot;rpackage&amp;quot;&amp;gt;{{Internetquelle |autor=Andy Liaw |url=https://cran.r-project.org/web/packages/randomForest/randomForest.pdf |titel=Documentation for R package randomForest |datum=2012-10-16 |format=PDF |sprache=en |abruf=2024-01-08}}&amp;lt;/ref&amp;gt;&lt;br /&gt;
&lt;br /&gt;
==== Permutation Importance ====&lt;br /&gt;
Im ersten Schritt wird ein Random Forest mit einem Datensatz &amp;lt;math&amp;gt;\mathcal{D}_n =\{(X_i, Y_i)\}_{i=1}^n&amp;lt;/math&amp;gt; trainiert. Danach werden für jeden Datenpunkt &amp;lt;math&amp;gt;x_i&amp;lt;/math&amp;gt; alle out-of-bag errors aufgezeichnet und über den Forest gemittelt (falls beim Training kein Bagging benutzt wurde, können ersatzweise Fehler eines unabhängigen Testdatensatzes benutzt werden).&lt;br /&gt;
&lt;br /&gt;
Um die Bedeutung des &amp;lt;math&amp;gt;j&amp;lt;/math&amp;gt;-ten Merkmals zu bestimmen, werden die Werte des &amp;lt;math&amp;gt;j&amp;lt;/math&amp;gt;-ten Merkmals in den out-of-bag Datenpunkten [[Permutation|permutiert]] und der gemittelte out-of-bag errors wird noch einmal für diesen gestörten Datenpunkt berechnet. Der Wert für die Bedeutung für das &amp;lt;math&amp;gt;j&amp;lt;/math&amp;gt;-te Merkmal wird berechnet, indem man die Differenz zwischen dem out-of-bag error vor und nach der Permutation über alle Bäume mittelt. Der Wert wird durch die Standardabweichung dieser Differenzen normalisiert.&lt;br /&gt;
&lt;br /&gt;
Merkmale mit hohen Werten haben eine größere Bedeutung für die Aufteilung als Merkmale mit kleineren Werten.&lt;br /&gt;
&lt;br /&gt;
== Ähnlichkeit zum K-Nächster-Nachbar-Algorithmus ==&lt;br /&gt;
Es gibt Ähnlichkeiten zwischen Random Forests und dem [[Nächste-Nachbarn-Klassifikation|K-Nearest-Neighbor-Algorithmus]].&amp;lt;ref&amp;gt;{{Literatur |Autor=Yi Lin, Yongho Jeon |Titel=Random Forests and Adaptive Nearest Neighbors |Sammelwerk=Journal of the American Statistical Association |Band=101 |Nummer=474 |Datum=2006-06-01 |ISSN=0162-1459 |Seiten=578–590 |Online=https://www.tandfonline.com/doi/full/10.1198/016214505000001230 |Abruf= |DOI=10.1198/016214505000001230}}&amp;lt;/ref&amp;gt; Beide gewichten bei ihren Vorhersagen für neue Datenpunkte diejenigen Datenpunkte aus dem Trainingsdatensatz höher, die nahe an den neuen Datenpunkten liegen.&lt;br /&gt;
&lt;br /&gt;
Der K-Nächster-Nachbar-Algorithmus bildet die Nähe durch eine gewichtete Abstandsfunktion ab, die näheren Punkten ein höheres Gewicht gibt als weiter entfernten. Beim Random Forest wirkt sich das Mitteln über viele unkorrellierte Bäume ähnlich aus.&lt;br /&gt;
&lt;br /&gt;
Gegeben seien &amp;lt;math&amp;gt;n&amp;lt;/math&amp;gt; unabhängige und identisch verteilte Werte &amp;lt;math&amp;gt;(x_i, y_i)&amp;lt;/math&amp;gt; eines zufälligen Eingabevektors &amp;lt;math&amp;gt;X := (X^{(1)}, \ldots, X^{(d)}) \in R^d&amp;lt;/math&amp;gt; und einer zufälligen Antwortvariablen &amp;lt;math&amp;gt;X \in R&amp;lt;/math&amp;gt;. Will man die [[Regressionsfunktion]] &amp;lt;math&amp;gt;g(x) := \operatorname{E}(Y \mid X = x)&amp;lt;/math&amp;gt; schätzen, dann kann man für jeden Punkt &amp;lt;math&amp;gt;x_0 \in R^d&amp;lt;/math&amp;gt; eine [[Schätzfunktion]] &amp;lt;math&amp;gt;\hat{g}(x_0)&amp;lt;/math&amp;gt; von &amp;lt;math&amp;gt;g(x_0)&amp;lt;/math&amp;gt; definieren, die auf den Funktionswerten &amp;lt;math&amp;gt;(x_i, y_i)&amp;lt;/math&amp;gt; basiert. Die [[mittlere quadratische Abweichung]] bei &amp;lt;math&amp;gt;x_0&amp;lt;/math&amp;gt; ist&lt;br /&gt;
:&amp;lt;math&amp;gt;\operatorname{MSE}(\hat{g}(x_0)) = \operatorname{E}((\hat{g}(x_0) - g(x_0))^2) = (\operatorname{E}(\hat{g}(x_0) - g(x_0)))^2 + \operatorname{Var}(\hat{g}(x_0))&amp;lt;/math&amp;gt;&lt;br /&gt;
Bei einer gegebenen [[Metrik (Mathematik)|Metrik]] schätzt der [[Nächste-Nachbarn-Klassifikation|K-Nearest-Neighbor-Algorithmus]] den Wert &amp;lt;math&amp;gt;g(x_0)&amp;lt;/math&amp;gt;, indem er die &amp;lt;math&amp;gt;k&amp;lt;/math&amp;gt; Punkte betrachtet, die &amp;lt;math&amp;gt;x_0&amp;lt;/math&amp;gt; am nächsten sind:&lt;br /&gt;
:&amp;lt;math&amp;gt;\hat{g}(x_0) = \sum_{i=1}^n w_i \cdot y_i&amp;lt;/math&amp;gt;&lt;br /&gt;
Dabei ist das Gewicht &amp;lt;math&amp;gt;w_i&amp;lt;/math&amp;gt; gleich &amp;lt;math&amp;gt;\tfrac{1}{k}&amp;lt;/math&amp;gt; für die &amp;lt;math&amp;gt;k&amp;lt;/math&amp;gt; nächsten Nachbarn von &amp;lt;math&amp;gt;x_0&amp;lt;/math&amp;gt; und gleich 0 für alle anderen Punkte.&lt;br /&gt;
&lt;br /&gt;
Beim Random Forest betrachtet man die [[Schätzfunktion]] &amp;lt;math&amp;gt;\hat{g}&amp;lt;/math&amp;gt; von &amp;lt;math&amp;gt;g&amp;lt;/math&amp;gt; für das Regressionsproblem &amp;lt;math&amp;gt;Y = g(X) + \epsilon&amp;lt;/math&amp;gt; mit &amp;lt;math&amp;gt;\operatorname{E}(\epsilon) = 0&amp;lt;/math&amp;gt; und &amp;lt;math&amp;gt;\operatorname{Var}(\epsilon) = \sigma^2&amp;lt;/math&amp;gt; auf der Grundlage einer [[Zufallsstichprobe]] &amp;lt;math&amp;gt;(x_1, y_1), (x_2, y_2), \ldots, (x_n, y_n)&amp;lt;/math&amp;gt; und nimmt an, dass die [[Zufallsvariable]] &amp;lt;math&amp;gt;X&amp;lt;/math&amp;gt; eine [[Wahrscheinlichkeitsverteilung]] in &amp;lt;math&amp;gt;[0, 1]^d&amp;lt;/math&amp;gt; hat. Ist &amp;lt;math&amp;gt;\hat{g}&amp;lt;/math&amp;gt; die Schätzfunktion eines nicht adaptiven Random Forest, dessen Endknoten die Größe &amp;lt;math&amp;gt;k&amp;lt;/math&amp;gt; haben, dann gibt es eine Konstante &amp;lt;math&amp;gt;\Lambda_3 &amp;gt; 0&amp;lt;/math&amp;gt;, sodass für alle &amp;lt;math&amp;gt;n&amp;lt;/math&amp;gt; und alle Funktionswerte &amp;lt;math&amp;gt;x_0 \in [0, 1]^d&amp;lt;/math&amp;gt; folgende Abschätzung für die [[mittlere quadratische Abweichung]] gilt:&lt;br /&gt;
:&amp;lt;math&amp;gt;\operatorname{MSE}(\hat{g}(x_0)) \geq \Lambda_3 \cdot k^{-1} \cdot (\log(n))^{-(d - 1)}&amp;lt;/math&amp;gt;.&lt;br /&gt;
Das bedeutet, dass &amp;lt;math&amp;gt;k^{-1} \cdot (\log(n))^{-(d - 1)}&amp;lt;/math&amp;gt; eine [[untere Schranke]] der [[Konvergenzgeschwindigkeit]] der [[Mittlere quadratische Abweichung|mittleren quadratischen Abweichung]] von nicht adaptiven Random Forests ist. Andererseits ist bekannt, dass die optimale Konvergenzgeschwindigkeit des mittleren quadratischen Fehlers bei Regressionsproblemen gleich &amp;lt;math&amp;gt;n^{-\tfrac{2 \cdot m}{2 \cdot m + d}}&amp;lt;/math&amp;gt; ist.&lt;br /&gt;
&lt;br /&gt;
== Weblinks ==&lt;br /&gt;
* [https://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm Random Forests], Homepage von Leo Breiman und Adele Cutler&lt;br /&gt;
&lt;br /&gt;
== Einzelnachweise ==&lt;br /&gt;
&amp;lt;references /&amp;gt;&lt;br /&gt;
&lt;br /&gt;
[[Kategorie:Regressionsanalyse]]&lt;br /&gt;
[[Kategorie:Klassifikationsverfahren]]&lt;br /&gt;
[[Kategorie:Maschinelles Lernen]]&lt;/div&gt;</summary>
		<author><name>imported&gt;Horst Gräbner</name></author>
	</entry>
</feed>