imported>Leonry: Artikel verlinkt

2025-07-02T07:43:55Z

Artikel verlinkt

Neue Seite

Die '''Feature Subset Selection''' (FSS), kurz '''Feature Selection''' oder '''Merkmalsauswahl''', ist ein Ansatz aus dem [[Maschinelles Lernen|maschinellen Lernen]], bei dem nur eine [[Teilmenge]] der verfügbaren [[Feature (Maschinelles Lernen)|Features]] für maschinelles Lernen verwendet wird. FSS ist notwendig, weil es teilweise technisch unmöglich ist, alle Features mit einzubeziehen oder weil es Differenzierungsprobleme gibt, wenn eine große Anzahl an Features, aber nur eine kleine Zahl an [[Datensatz|Datensätzen]] vorhanden ist oder um [[Überanpassung]] des Modells zu vermeiden, siehe [[Verzerrung-Varianz-Dilemma]].

== Ansätze ==
Es gibt drei Hauptansätze zur Feature Selection.
=== Filter-Ansatz ===
[[Datei:Filter Methode.png|mini|300px|Filter-Methode]]
Berechne ein Maß zur Unterscheidung von Klassen. Messe das Gewicht der Features und wähle die besten '''n''' aus. Auf dieses Feature Subset wird der Lernalgorithmus angewendet. Filter können entweder [[univariat]] (z. B. [[Euklidischer Abstand|euklidische Distanz]], [[Chi-Quadrat-Test]]) oder multivariat (z. B. Korrelationsbasierte Filter) die [[intrinsisch]]en Eigenschaften der Daten berechnen.
Feature selection durch Filtern ist ein spezieller Fall des [[Strukturlernen]]s, welches z. B. im Kontext von [[Bayessches Lernen|Bayesschem Lernen]] häufig Anwendung findet.

Vorteile:
* schnell berechenbar
* skalierbar
* intuitiv interpretierbar

Nachteile:
* [[Redundanz (Technik)|Redundante]] Features (Verwandte Features werden ähnliche Gewichtung haben)
* ignoriert Abhängigkeiten mit dem Lernalgorithmus

=== Wrapper-Ansatz ===
[[Datei:Feature selection Wrapper Method.png|mini|300px|Wrapper-Methode]]
Durchsuche die Menge aller möglichen Feature-Subsets. Auf jedes [[Untermenge|Subset]] wird der Lernalgorithmus angewendet. Das Durchsuchen kann entweder deterministisch oder randomisiert erfolgen:
Deterministische Algorithmen sind
z. B.:
* Forward selection
* Recursive feature elimination<ref>https://scikit-learn.org/stable/modules/feature_selection.html</ref>
Randomisierte Algorithmen sind z. B.:
* [[Simulierte Abkühlung]]
* genetische Algorithmen

Vorteile:
* Findet ein Feature-Subset, das optimal zum Lernalgorithmus passt
* Bezieht auch Kombinationen von Features ein und nicht nur jedes Feature einzeln
* Entfernt redundante Features
* einfach umzusetzen
* interagiert mit Lernalgorithmus

Nachteile:
* Sehr zeitaufwändig
* bei [[heuristisch]]en Verfahren besteht die Gefahr nur lokale Optima zu finden
* Gefahr der Überanpassung der Daten, daher gibt es Warnungen zur Verwendung von forward oder backward feature selection<ref>Flom, Lynda & Cassell, David. (2007). Stopping stepwise: Why stepwise and similar selection methods are bad, and what you should use. NorthEast SAS Users Group Inc 20th Annual Conference: 11-14th November 2007; Baltimore, Maryland.</ref>
* Abhängigkeit vom Lernalgorithmus

=== Embedded-Ansatz ===
[[Datei:Feature selection Embedded Method.png|mini|300px|Embedded-Methode]]
Die Suche nach einer optimalen Untermenge ist direkt mit dem Lernalgorithmus verbunden.

Vorteile:
* bessere Laufzeiten und geringere Komplexität
* Abhängigkeiten zwischen Datenpunkten werden modelliert

Nachteile:
* Wahl der Untermenge hängt stark vom verwendeten Lernalgorithmus ab.
Beispiele:
* [[Lasso-Regression]]
* [[Elastic Net Regularisierung]]
* Entscheidungsbäume
* Gewichtete [[Bayes-Klassifikator|Naive Bayes-Klassifikator]]<ref>Duda,P. et al. (2001) Pattern Classification. Wiley, New York.</ref>
* Auswahl der Teilmenge mit Hilfe des Wichtungsvektor von SVM<ref> Guyon,I. and Elisseeff,A. (2003) An introduction to variable and feature
selection. J. Mach Learn Res., 3, 1157–1182.</ref>

== Beispiele für Algorithmen ==
=== Correlation Feature Selection ===
Gute Untermengen von Features enthalten Features, welche stark mit der Zielvariablen korreliert sind, aber dennoch möglichst unkorreliert untereinander sind.<ref>{{Cite journal|language=en |last1=Senliol |first1=Baris |first2=Gokhan |last2=Gulgezen |first3=Lei |last3=Yu |first4=Zehra |last4=Cataltepe|title=Fast Correlation Based Filter (FCBF) with a different search strategy |journal=2008 23rd International Symposium on Computer and Information Sciences |pages=1–4 |date=2008 |doi=10.1109/ISCIS.2008.4717949 }}</ref>
Correlation Feature Selection (CFS) wählt als Filter-Algorithmus die Untermengen <math>S_k</math> mit <math>k</math> vielen Features wie folgt aus:

:<math>\mathrm{CFS} = \max_{S_k}
\left[\frac{r_{c f_1}+r_{c f_2}+\cdots+r_{c f_k}}
{\sqrt{k+2(r_{f_1 f_2}+\cdots+r_{f_i f_j}+ \cdots
+ r_{f_k f_{k-1} })}}\right],</math>
wobei <math>r_{c f_i}</math> die Korrelationskoeffizienten (z. B. [[Spearman-Korrelation]] oder [[Pearson-Korrelation]]) zwischen Zielvariable <math>c</math> und Feature <math>f_i</math> sind und <math>r_{f_i f_j}</math> die Korrelationskoeffizienten der Features <math>f_i</math> und <math>f_j</math> untereinander.

=== Boruta ===
Boruta<ref>Boruta - A System for Feature Selection
January 2010 Fundamenta Informaticae 101(4):271-285
{{doi|10.3233/FI-2010-288}}</ref> ist ein [[Algorithmus]] zur Feature Selection, welcher zunächst weitere zufällige Features einführt und die [[Feature Importance]] jedes Features mit der dieser zufälligen Features vergleicht: Features, welche häufig unwichtiger als diese zufälligen Features waren, werden verworfen.
=== Relief-Algorithmus ===
{{Hauptartikel|Relief-Algorithmus}}
Relief basierte Algorithmen folgen der Filtermethodik und analysieren Unterschiede der Features bei nächsten Nachbarn, welche andern Klassen angehören.

=== Regularisierung ===
[[Regularisierung]] mit dem L1-Loss wählt gewisse Features aus, siehe [[Lasso-Regression]]. Es ist ein Beispiel für den Embedded-Ansatz. Bei der Lasso-Regression (und orthogonalen Merkmalen) kann mithilfe von [[Subdifferential]]en<ref>https://xavierbourretsicotte.github.io/lasso_derivation.html</ref> die [[Soft-Threshold]]-Funktion hergeleitet werden, welche einige Parameter der [[Methode der kleinsten Quadrate|Kleinste-Quadrate-Regression]] (OLS) direkt auf Null setzt: <math>\hat\beta_{j}^{\text{Lasso}}=\hat\beta_{j}^{\!\;\text{OLS}} \max \Biggl( 0, 1 - \frac{ N \lambda }{ \bigl|\hat\beta{}_j^{\!\;\text{OLS}}\bigr| } \Biggr).</math>

=== Feature Selection mit Annealing ===
Feature Selection mit [[Annealing]] erlaubt Feature Selection mit gewissen statistischen Garantien<ref>Feature Selection with Annealing for Computer Vision and Big Data Learning
Adrian Barbu, Yiyuan She, Liangjing Ding, Gary Gramajo {{doi|10.1109/TPAMI.2016.2544315}}</ref>.

== Siehe auch ==
* [[Sensitivitätsanalyse]]

== Literatur ==
* Extended Comparisons of Best Subset Selection, Forward Stepwise Selection, and the Lasso. Trevor Hastie, Robert Tibshirani, Ryan J. Tibshirani https://arxiv.org/abs/1707.08692
* Yvan Saeys, Inaki Inza and Pedro Larranaga (2007) ''A review of feature selection techniques in bioinformatics''. Bioinformatics. 23(19) 2507--2517.

== Einzelnachweise ==
<references />

[[Kategorie:Maschinelles Lernen]]

Feature Subset Selection - Versionsgeschichte

imported>Leonry: Artikel verlinkt